tikv进程不断重启报错

【 TiDB 使用环境】

【概述】场景+问题概述
tidb集群中的一台tikv内存发生故障,出现了宕机,宕机超过了半小时
【背景】做过哪些操作
无操作
【现象】业务和数据库现象
tikv服务器重启后,一会进程启动一会进程没了,大概每2分钟一次,最后查到报错是
tikv向Pd服务器发送http请求,返回了400状态码,响应内容为
“component tikv address 192.168.100.109:20180 has already been registered”

同时tiup cluster display查询状态为
192.168.100.109:20160 tikv 192.168.100.109 20160/20180 linux/x86_64 Disconnected /tidb/tikv-20160 /tidb-deploy/tikv-20160

再监控里面显示这个tikv已经处于down状态
【业务影响】

【TiDB 版本】

【附件】

  1. TiUP Cluster Display 信息

  2. TiUP Cluster Edit Config 信息

  3. TiDB- Overview 监控

  • 对应模块日志(包含问题前后1小时日志)

需要怎么操作才能让这台服务器上的tikv进程回到正常的up状态

如果下线这台tikv对集群没有影响 建议你强制下线tikv ,然后在重新扩容加入集群。
强制下线 --force

对集群没影响,还有其他的kv服务器
具体要用什么命令

tiup cluster scale-out tidb-cluster -N 10.101.2.116:20160 --force 类似这样

tiup cluster scale-in tidb-cluster -N 10.101.2.116:20160 --force 这个是下线

好的。 这个是正常现象吗 tikv服务器重启了报这个错误,我们用的是v4.0.0版本。

不是正常现象,但是你的版本太低了,bug可能多,建议升级到4.0.12以上版本

好的 先在测试环境测试一下

tiup 执行scale-in之后,用pd-ctl查看这个store状态是offline,这时候直接扩容还是报错,说已经存在了

看到另外个答案,大概知道了 还要等待

问题解决了,排查思路如下:
1.使用以下命令查看region_count和used_size是不是在变小。
tiup ctl:v5.0.1 pd store 68057
2.如果没有变化卡住了,查看对应store的tikv log是不是报错了,pd的log是不是报错了,我碰到了pd提示迁移到其他tikv的空间不足,释放后又碰到tikv报错了,解决方案:重启卡主的tikv节点,再观察tikv日志是不是在打印,日志说会输出删除镜像删除文件之类的,这样再耐心等待就可以,等删除完就会进入墓碑状态,tiup cluster display 集群,下面会有提示命令进行删除节点。
tiup cluster restart tidb-zabbix --node 10.33.2.49:20160

是 需等一会

太感谢了:+1:

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。