prune集群后出现几个tikv节点disconnect

wakaka · 2023 年5 月 8 日 15:42

【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.0.6
【复现路径】有tiflash下线，等到节点的副本数为0变为tombstomb状态后，执行了tiup cluster prune操作
【遇到的问题：问题现象及影响】出现了几台tikv节点disconnect现象，报错一个不存在的store id

【资源配置】
【附件：截图/日志/监控】

tidb菜鸟一只 · 2023 年5 月 9 日 00:33

SELECT * FROM INFORMATION_SCHEMA.TIKV_STORE_STATUS a WHERE a.STORE_ID=‘’;
看看是什么节点

wakaka · 2023 年5 月 9 日 00:53

这个没有

pdctl 的第一条命令查不出来被killed了，第二条也是0

考试没答案 · 2023 年5 月 9 日 01:09

敢不敢使用重启大法。将pd 的leader 重启下，切换到其他节点看看呢。

wakaka · 2023 年5 月 9 日 01:13

这个有理论支持不，我单独用不同的pd api访问也是没有这个store

wakaka · 2023 年5 月 9 日 01:13

jansu-dev · 2023 年5 月 12 日 03:36

这个问题提比较复杂，应该是昨晚支持那个问题吧：
tikv disconnected 及监控标高问题：目前判断是因为 tikv raftstore 被打满了导致 tikv disconnected，raftstore 被打满是因为静默 region 被激活，不断的像 PD 发请求导致 raftstore cpu 飙高失联（同时 pd 监控标高）。但静默 region 为什么被激活，还未被实锤，目前猜测有可能是下线 tiflash 触发了 bug 导致的，后续有明确结论，我再贴上来吧。

wakaka · 2023 年5 月 15 日 01:31

多谢大佬！

jansu-dev · 2023 年5 月 23 日 10:32

集群共存在 2 个问题：
1，集群的下线异常节点：其中的异常表现属于 5.0.6 未修复bug 完全避免该 bug 需要升级数据库版本。 https://github.com/tikv/pd/issues/4941 和 https://github.com/tikv/tikv/issues/12506
2，PD 部分监控指标高：是因为前序两个 bug 导致一直识别到已经 tombstone 的 tikv，将 Store 节点正常下线后恢复正常。

system · 2023 年7 月 22 日 10:32

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。