部分kv的leader经常降到0 ，然后再恢复正常

TiDBer_4Ux2BdLR · 2024 年9 月 3 日 09:14

【 TiDB 使用环境】生产环境
【 TiDB 版本】8.1.0
【复现路径】观察监控平台的kv节点
【遇到的问题：问题现象及影响】部分kv的leader经常降到0 ，然后再恢复正常
%MI$M{W2K3}UTHO57OSSB

MrSylar · 2024 年9 月 3 日 09:31

能看到 prometheus 的日志上有 pull metrics 异常的信息吗？从掉 0 到恢复的时间有点断，猜测是不是拉取的时候发生问题了

TiDBer_xTvoCh2f · 2024 年9 月 3 日 09:44

kv有重启吗？

Jellybean · 2024 年9 月 3 日 10:22

出现这种情况，说明tikv节点大概率在反复重启，通常出现这个问题是大SQL查询大量数据或者是block Cache设置不合理或者是单机部署了太多tikv节点导致的。

请确认下机器是否有反复重启，也确认tikv的内存监控、tikv节点启动时间监控情况。

这里介绍不了我 · 2024 年9 月 4 日 07:17

你看下是不是业务行为导致leader被驱逐

xingzhenxiang · 2024 年9 月 4 日 07:19

这种情况我遇到过，我一般重启对应服务器问题就不再发生，我出现问题的版本为v3.1.0

Soysauce520 · 2024 年9 月 4 日 07:49

集群tikv不断重启（概率大），或者网络丢失会出现这样的情况

cchouqiang · 2024 年9 月 5 日 03:18

看看tikv是不是重启了