prune集群后出现几个tikv节点disconnect

【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.0.6
【复现路径】有tiflash下线,等到节点的副本数为0变为tombstomb状态后,执行了tiup cluster prune操作
【遇到的问题:问题现象及影响】 出现了几台tikv节点disconnect现象,报错一个不存在的store id

【资源配置】
【附件:截图/日志/监控】

SELECT * FROM INFORMATION_SCHEMA.TIKV_STORE_STATUS a WHERE a.STORE_ID=‘’;
看看是什么节点

这个没有


pdctl 的第一条命令查不出来 被killed了,第二条也是0

敢不敢使用重启大法。 将pd 的leader 重启下, 切换到其他节点看看呢 。

这个有理论支持不,我单独用不同的pd api访问也是没有这个store

这个问题提比较复杂,应该是昨晚支持那个问题吧:
tikv disconnected 及监控标高问题:目前判断是因为 tikv raftstore 被打满了导致 tikv disconnected,raftstore 被打满是因为静默 region 被激活,不断的像 PD 发请求导致 raftstore cpu 飙高失联(同时 pd 监控标高)。但静默 region 为什么被激活,还未被实锤,目前猜测有可能是 下线 tiflash 触发了 bug 导致的,后续有明确结论,我再贴上来吧。

1 个赞

多谢大佬!

集群共存在 2 个问题:
1,集群的下线异常节点:其中的异常表现属于 5.0.6 未修复bug 完全避免该 bug 需要升级数据库版本。 https://github.com/tikv/pd/issues/4941https://github.com/tikv/tikv/issues/12506
2,PD 部分监控指标高 : 是因为前序两个 bug 导致一直识别到已经 tombstone 的 tikv,将 Store 节点正常下线后恢复正常。

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。