【TiDB 使用环境】生产环境
【TiDB 版本】
【操作系统】centos 7.5
【部署方式】机器部署
【问题复现路径】tiup cluster prune xxx --force
【遇到的问题:问题现象及影响】
tiflash节点故障后,无法ssh通信,强制下线掉Tombstone节点。下线成功后,监控一直报警存在down节点。查看监控中Abnormal stores,显示存在状态为down的节点。
本地查看集群状态没有问题,重启prometheus节点后依旧没有解决。
应该是
tiup cluster scale-in xxx --force
tiup cluster prune xxx
是有的,可以查看下help
pd中查看,确实有之前强制prune掉的Tombstone节点信息。应该是机器拉起来后,又有了通信。这些store对应的region_count为0。如和安全的清除掉这些store呢
这是个学习贴吗
看下帮助文档
查看help应该也不支持–force吧
参照之前大神的三板斧吧。
tiflash什么故障
tiflash机器在下线过程中,挂掉了
1 个赞
设置监控频率间隔大一些
监控频率间隔怎么设置?
看了下pd,发现故障机器被拉起后。pd自动又将故障节点识别为未下线节点。状态为down,region_count为0。通过store delete删除就解决了
三板斧果然有用~
本地 tiup cluster display 显示正常不代表 PD 内部的 Store 记录已清理,强制下线可能跳过正常的 Offline→Tombstone 状态流转,导致 PD 中仍残留 Down 状态的 Store 信息。通过 pd - ctl 工具查询真实状态:
pd-ctl -u http://<pd_ip>:2379 store
我们生产都没用tiflash
延时造成的
