服务器CPU损坏修复后如何处理 tikv 节点信息

Mwkk · 2025 年6 月 4 日 08:26

【TiDB 使用环境】生产环境 /测试/ Poc
【TiDB 版本】
【操作系统】
【部署方式】云上部署（什么云）/机器部署（什么机器配置、什么硬盘）
【集群数据量】
【集群节点数】
【问题复现路径】做过哪些操作出现的问题
【遇到的问题：问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【复制黏贴 ERROR 报错的日志】
【其他附件：截图/日志/监控】
有一台服务器因 CPU 内存故障，无法启动。当时做了 force scale in ，今天这台服务器修好重新启动后，因服务器没有重新装机，硬盘上还有之前残留的 tikv 服务，现 pd 读取到这些 tikv 服务信息，造成 tidb 报 region 不可用，响应时间增加。现在想把这些 tikv 信息在pd store 做清理，可以直接 store delete xxx 么？

WalterWj · 2025 年6 月 4 日 08:29

先关闭这个节点的 tikv，然后做 store delete 可以的。

不过你直接做 force scale in 之后，pd 里面应该就有下线操作了，也就是 store delete 操作，理论上加进去会被拒绝的。

Mwkk · 2025 年6 月 4 日 08:36

现在就很奇怪的是这台服务器上的 3个 kv 被自动加回来了，pd 看这3个 kv 服务启动时长是4小时，和服务器启动时间一致。是不是因为自启动之后，这上面的 kv pd 信息指向有 leader 节点，被认为是 scale up 进集群了？

WalterWj · 2025 年6 月 4 日 08:51

。。。好吧那就是 pd 里面信息已经清理干净了。。。然后被重新加进来了。。。。你试试正常下线能不能下线掉。。。

WalterWj · 2025 年6 月 4 日 08:52

扩容的操作其实就是在对应的服务器上部署 tikv，指定 pd 地址是当前集群的，你这相当于重新加回来了。。。而且这个加回来的 tikv 还带了历史数据。。。就很恐怖。

Mwkk · 2025 年6 月 4 日 09:00

能正常下线，手工 store delete 后，又尝试重启了一下一个 tikv 服务，日志已经正常报 store Tombstone ，反复重启中了

WalterWj · 2025 年6 月 4 日 09:58

你都下线了干嘛还去把下线的 tikv 拉起来？

xfworld · 2025 年6 月 5 日 03:43

他想体验极端的异常场景…