tiup部署的tidb集群,kv节点的Pending Offline怎么恢复成正常的状态

点击复制链接完成认证,获得“加急”处理问题的权限,方便您更快速地解决问题。

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【概述】使用tiup部署的tidb-v4.0.0,服务器断电之后重新启动集群,但是有一台的kv节点一直是连接超时,服务器的免密登陆这些都正常,之后我i想把这个节点剔除掉,然后再扩容一个节点,但是执行扩容命名的时候集群会重新启动,还是会去启动之前剔除掉的节点,然后又会出现连接超时的错误,目前数据库服务连接不上

【背景】剔除连接不上kv节点

【现象】剔除连接不上kv节点

【业务影响】数据库连接失败

【TiDB 版本】v4.0.0
集群状态

中控机启动集群日志

连接失败kv节点日志

  1. TiUP Cluster Display 信息

  2. TiUP Cluster Edit Config 信息

  3. TiDB- Overview 监控

  • 对应模块日志(包含问题前后1小时日志)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

请问,display展示完整了吗? 只有两个 tikv,其中一个是出问题,无法启动的?

用tiup cluster scale-in xxx --force强制下线连接超时的节点试试

你好,这个是完整的display,一共就装了两个kv

你好,用完命令确实下线掉了,现在就只有一个kv节点

启动报找不到kv的leader节点

我又扩容了一个kv的节点,yaml文件下如下(在原来部署kv节点的服务器换了的端口)

运行如下命令:

启动到tidb-server节点时报连接超时

【问题】1、一个kv运行找不到leader,在运行扩容命令时要去启动tidb-server,启动时就会去找kv的leader,进入了一个错误的循环

raft 协议是需要多副本写入的,默认副本是 3 吗? 如果是的话,最少需要两个 tikv 节点。你只有2个,目前有一个坏掉了,那就无法启动了… 先单节点恢复下吧。 再扩容。尽量还是3个节点吧…

谢谢大哥回复,单节点恢复怎么操作啊,现在数据库在正式环境上,已经停了2天了,公司催的不行,只要能把服务启动,先能能连的上就行

看下 yilong 楼上发的文档,里面有介绍怎么从宕机中恢复。
看那个宕机 3 台的 case,可以试试这个方法。