tikv进程不断重启报错

furyamber · 2021 年8 月 5 日 06:05

【 TiDB 使用环境】

【概述】场景+问题概述
tidb集群中的一台tikv内存发生故障，出现了宕机，宕机超过了半小时
【背景】做过哪些操作
无操作
【现象】业务和数据库现象
tikv服务器重启后，一会进程启动一会进程没了，大概每2分钟一次，最后查到报错是
tikv向Pd服务器发送http请求，返回了400状态码，响应内容为
“component tikv address 192.168.100.109:20180 has already been registered”

同时tiup cluster display查询状态为
192.168.100.109:20160 tikv 192.168.100.109 20160/20180 linux/x86_64 Disconnected /tidb/tikv-20160 /tidb-deploy/tikv-20160

再监控里面显示这个tikv已经处于down状态
【业务影响】

【TiDB 版本】

【附件】

相关日志和监控

TiUP Cluster Display 信息
TiUP Cluster Edit Config 信息
TiDB- Overview 监控

对应模块日志（包含问题前后1小时日志）

furyamber · 2021 年8 月 5 日 06:06

需要怎么操作才能让这台服务器上的tikv进程回到正常的up状态

songxuecheng · 2021 年8 月 5 日 06:25

如果下线这台tikv对集群没有影响建议你强制下线tikv ,然后在重新扩容加入集群。
强制下线 --force

furyamber · 2021 年8 月 5 日 06:30

对集群没影响，还有其他的kv服务器
具体要用什么命令

songxuecheng · 2021 年8 月 5 日 06:34

tiup cluster scale-out tidb-cluster -N 10.101.2.116:20160 --force 类似这样

songxuecheng · 2021 年8 月 5 日 06:35

tiup cluster scale-in tidb-cluster -N 10.101.2.116:20160 --force 这个是下线

furyamber · 2021 年8 月 5 日 06:35

好的。这个是正常现象吗 tikv服务器重启了报这个错误，我们用的是v4.0.0版本。

songxuecheng · 2021 年8 月 5 日 06:36

不是正常现象，但是你的版本太低了，bug可能多，建议升级到4.0.12以上版本

furyamber · 2021 年8 月 5 日 06:39

好的先在测试环境测试一下

furyamber · 2021 年8 月 6 日 02:06

tiup 执行scale-in之后，用pd-ctl查看这个store状态是offline,这时候直接扩容还是报错，说已经存在了

furyamber · 2021 年8 月 6 日 02:11

看到另外个答案，大概知道了还要等待

问题解决了，排查思路如下：
1.使用以下命令查看region_count和used_size是不是在变小。
tiup ctl:v5.0.1 pd store 68057
2.如果没有变化卡住了，查看对应store的tikv log是不是报错了，pd的log是不是报错了，我碰到了pd提示迁移到其他tikv的空间不足，释放后又碰到tikv报错了，解决方案:重启卡主的tikv节点，再观察tikv日志是不是在打印，日志说会输出删除镜像删除文件之类的，这样再耐心等待就可以，等删除完就会进入墓碑状态，tiup cluster display 集群，下面会有提示命令进行删除节点。
tiup cluster restart tidb-zabbix --node 10.33.2.49:20160

songxuecheng · 2021 年8 月 6 日 02:27

是需等一会

furyamber · 2021 年8 月 6 日 02:29

太感谢了

system · 2022 年10 月 31 日 19:15

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。