服务器CPU损坏修复后如何处理 tikv 节点信息

【TiDB 使用环境】生产环境 /测试/ Poc
【TiDB 版本】
【操作系统】
【部署方式】云上部署(什么云)/机器部署(什么机器配置、什么硬盘)
【集群数据量】
【集群节点数】
【问题复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【复制黏贴 ERROR 报错的日志】
【其他附件:截图/日志/监控】
有一台服务器因 CPU 内存故障,无法启动。当时做了 force scale in ,今天这台服务器修好重新启动后,因服务器没有重新装机,硬盘上还有之前残留的 tikv 服务,现 pd 读取到这些 tikv 服务信息,造成 tidb 报 region 不可用,响应时间增加。现在想把这些 tikv 信息在pd store 做清理,可以直接 store delete xxx 么?

先关闭 这个节点的 tikv,然后做 store delete 可以的。

不过你直接做 force scale in 之后,pd 里面应该就有下线操作了,也就是 store delete 操作,理论上加进去会被拒绝的。

1 个赞

现在就很奇怪的是这台服务器上的 3个 kv 被自动加回来了,pd 看这3个 kv 服务启动时长是4小时,和服务器启动时间一致。是不是因为自启动之后,这上面的 kv pd 信息指向有 leader 节点,被认为是 scale up 进集群了?

。。。好吧 那就是 pd 里面信息已经清理干净了。。。然后被重新加进来了。。。。你试试正常下线能不能下线掉。。。

扩容的操作其实就是在对应的服务器上部署 tikv,指定 pd 地址是当前集群的,你这相当于重新加回来了。。。而且这个加回来的 tikv 还带了历史数据。。。就很恐怖。

1 个赞

能正常下线,手工 store delete 后,又尝试重启了一下一个 tikv 服务,日志已经正常报 store Tombstone ,反复重启中了

你都下线了 干嘛还去把下线的 tikv 拉起来?

1 个赞

他想体验极端的异常场景…