kv离线节点无法移除（tidb6.1）

TiDBer_uXv8htBz · 2023 年1 月 20 日 01:14

生产环境tidb6.1，pd、tidb、kv分别部署3个节点，一个kv节点自动离线后无法启动，整点时数据库性能下降持续时间大概10分钟，使用tiup cluster scale-in 强制将离线节点从集群中移除，执行 tiup cluster prune命令清理，使用tiup cluster display查看节点信息离线节点已被移除，但是dashboard查看还在并显示离线状态

重新在原离线服务器（系统已重装）部署kv 提示20160存在安装失败，修改端口号改成20161/20181重新部署成功，查看kv日志之前被移除的节点还在并且报错，错误日志如下

使用tiup cluster display 查看目前节点信息如下

web端查看节点信息如下

已离线的节点无法移除，请高人指点下，感激！！！！！！！！！！

dba-kit · 2023 年1 月 20 日 01:40

你下线时的操作步骤再详细讲一下？有没有等TiKV把所有leader都驱逐完毕啊？

dba-kit · 2023 年1 月 20 日 01:41

默认情况下，tiup在驱逐leader时候只会等待5min，如果数据量太大，有可能你scale-in虽然结束(报error)，但是后台还在执行驱逐leader。

dba-kit · 2023 年1 月 20 日 01:45

可以执行一下这个命令，看下节点状态是否正常

tiup ctl:v6.1.0 pd store --jq '.stores[] | .store | {address, version, state_name}'

裤衩儿飞上天 · 2023 年1 月 20 日 02:07

pd ctl 看看还有没下线节点（store）的信息

TiDBer_uXv8htBz · 2023 年1 月 20 日 02:34

离线节点是12.17号离线的，发现数据库在整点时候性能会下降，大约会持续10分钟，查看数据库发现一个kv节点离线了也无法启动了，使用 tiup cluster scale-in 强制将离线节点从集群中移除，十几分钟以后执行 tiup cluster prune，执行后查看离线节点还在，几个小时之后再次执行清理离线节点还在

TiDBer_uXv8htBz · 2023 年1 月 20 日 02:40

dba-kit · 2023 年1 月 20 日 02:47

uptime看起来是最近还在使用，你登陆tikv节点，ps看下进程是否还在？
另外节点状态是 down，并不是tombstone，我怀疑可能还有leader没有被转移走，就被你强制删除了

裤衩儿飞上天 · 2023 年1 月 20 日 02:50

store delete store_id 试试
注意 id 别错了

裤衩儿飞上天 · 2023 年1 月 20 日 02:51

他先是节点异常起不来了，然后强制删除了节点，系统还重装了

TiDBer_uXv8htBz · 2023 年1 月 20 日 02:52

进程不在了，我是重装了系统，

之前的端口号是20160的，这个20161是我后来添加的

dba-kit · 2023 年1 月 20 日 02:53

各状态的含义如图所示，建议先别直接delete store，怕真的丢region。(虽然你重装系统了，但是tikv数据大概率在数据盘，不是系统盘，所以重装后数据还在。这也是为啥你直接用原来的端口安装会报错的原因)

TiDBer_uXv8htBz · 2023 年1 月 20 日 02:53

id是7的这个，这个是正确的吧

TiDBer_uXv8htBz · 2023 年1 月 20 日 02:55

重装系统我查了磁盘使用情况，磁盘空间都释放了

裤衩儿飞上天 · 2023 年1 月 20 日 02:55

听天师的，先检查下 region 有没有少副本的，都正常了再执行删除
不过你这节点17号离线的，都好几天了，副本应该已经补齐了

TiDBer_uXv8htBz · 2023 年1 月 20 日 03:22

执行了删除操作，状态变了

日志中还会出现之前的那个节点

TiDBer_uXv8htBz · 2023 年1 月 20 日 03:22

执行了删除操作，状态变了

日志中还会出现之前的那个节点

裤衩儿飞上天 · 2023 年1 月 20 日 03:35

等等看顺便监控下 store 7的region 信息

dba-kit · 2023 年1 月 20 日 05:45

offline阶段其实是在转移leader到其他节点，不过你数据都已经删除了，不知道能不能正常转移。。
pd-ctl上执行这个，看下还有没有region信息遗留

region store 7

dba-kit · 2023 年1 月 20 日 05:50

region check down-peer也执行下，看下是不是所有region状态都正常