偶尔有tikv节点down掉

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【TiDB 版本】v4.0.4

【问题描述】
整个tidb集群是使用tiup来进行安装,tikv3节点, pd3节点, tidb2节点,监控1节点。
目前整个tidb的数据是通过br从另外一个Tidb集群中恢复而来,大概200G文件,
在使用过程中使用tiup cluster display cluster_name来查看节点状态,经常会有Tikv处于down的状态,发现以后就使用tiup cluster restart来重启整个集群,发现又变好了,但是过一两天以后就有Tikv节点处于down的状态。

疑问:

  1. tikv节点处于down的状态,需要如何定位问题?
  2. tidb集群中tikv进行down掉以后,是否有命令对down的tikv进行重启,而不用对整个集群进行重启(耗时)?

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

  1. TiKV 重启的时候会在日志中打印一条 Welcome 的日志,可以根据 Welcome 关键字找到对应的重启时间点,往前翻一下日志信息看下有没有信息。
  2. 正常如果是意外挂掉的 tikv 实例,systemctl 服务会在后台将 tikv 自动拉起的,可以检查一下 systemctl 服务是否是正常的
  3. tiup cluster restart -R tikv 可以只重启所有的 tikv 节点,tiup cluster restart -N {node_id} 可以只重启对应的节点(node_id 就是 tiup cluster display 输出结果的 ID 列)

好的,多谢大神

:handshake::handshake::handshake:

偶尔有tikv down后来有分析原因么

看日志吧,这个是最有效的了

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。