6.1.7版本节点宕机使用--force强制下线后，pd的store信息与tiup display不一致问题

xxxxxxxx · 2025 年5 月 14 日 10:02

tidb版本6.1.7

今天中午11点多线上一套集群的一个tikv节点磁盘故障宕机了，然后手动通过–force下线该节点，tiup命令执行成功了，通过tiup display查看到的节点信息也是没有该节点信息了，但是告警一直告警。

告警信息提示id=5这个节点。（但是看告警时间是11点多的，但是现在都18点了，还一直发告警）

pd信息看到id=5这个节点出于offline状态。（有三个tiflash节点，四个tikv节点）

store id=5详细信息

grafana上现存的tikv id

这种情况要怎么处理呢？

强制下线以后已经重启过Prometheus了

BrianLiu · 2025 年5 月 14 日 10:09

进入pd-ctl后id5的store完整信息是怎么样的？

BrianLiu · 2025 年5 月 14 日 10:12

grafana pd监控region count还有没有store 5的信息的了

xxxxxxxx · 2025 年5 月 14 日 10:12

没有了，帖子里面有贴

BrianLiu · 2025 年5 月 14 日 10:30

pd-ctl中显示store 5region count还有两万多个，这部分region迁移走，pd-ctl信息会自动清理。
目前迁移速度较慢，可以尝试调大参数加快迁移速度：
config set replica-schedule-limit
config set max-snapshot-count
config set max-pending-peer-count
config set region-schedule-limit

https://docs.pingcap.com/zh/tidb/stable/pd-scheduling-best-practices/#节点下线速度慢

小龙虾爱大龙虾 · 2025 年5 月 15 日 08:41

去 PD 看下 region 调度情况，副本都补完后，这个节点会变成 tomestore