监控Overview-->tikv 中少了节点 的CPU 和 raft store CPU 变为0%,然后整个集群就变慢了

突然就开始leader 均衡上了

看着是你11台机器 每台机器部署了4个TiKV实例(其中以一个是3个)? 3号 8号都down过4个TiKV,对应的两个机器,可以看看基础资源这快是不是OOM了或者其它原因导致节点宕机。

目前看tikv dmesg 没有发现oom,但是发现都是node 1这个节点上tikv有问题,tikv 看状态都是up的,不论display还是看pd store 状态

star_ts都是相同的5月3号 5月8号 不是发生重启了吗 机器是不是重启了

不是重启机器了
是tikv server 突然自己不工作了

  1. 可以看看 tikv.log 日志,有什么异常吗?
  2. 看版本还是 3.1 ,可以考虑升级到高版本。

tikv日志没看到问题,不知道这套tidb使用明显减少至原来的5%,太空闲了,影不影响tikv 和pd之间的通讯,造成tikv 这种情况。

ps:我增加节点,到节点完全上线这一个整个过程tidb调度比较频繁时,tikv不会出现这种情况,但是tikv server 完全扩容完毕后,没有什么数据交互量了,会出现部分tikv server CPU 变为0。

我重启了出现这个问题的对应机器,目前问题不再发生,怀疑tikv server 对应的node 内存管理出现问题,

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。