【 TiDB 使用环境】测试/
【 TiDB 版本】v6.1.1
【复现路径】未做过什么特殊操作
【遇到的问题:问题现象及影响】
有一个tik节点的leader数量为0,但是实例状态正常,region数量也正常,tikv日志中显示 call CheckLeader failed ,详细日志如下:
查看副本分布情况,pd-ctl -u http://<PD_IP>:<PD_Port> store
leader_score: 0
其他的 kv 节点,都是标准 score,不是 0 吧?
都是标准节点,未做任何额外设置
上面的截图就是用这个命令查的结果
通过 grafana 看看 region 的分布情况…
二楼推荐给你的文档,可以排查试试.
region分布情况非常均衡, 除了这个节点,其他节点leader分布情况也非常均衡
二楼老师的文档,大概过了一遍,没能发现问题所在
PD leader 日志搜关键词 「detected slow store, start to evict leaders」
在 TiKV 日志中搜索 “evict leader”,如果出现了 “evict leader” 的日志,说明该 TiKV 节点被驱逐了 leader。
grep "evict leader" /path/to/tikv.log
确认一下看看…
pd leader的日志中未能搜索到以上关键词
看先正常节点这个slowscore是1吗? 如果不是的话那就是因为tidb检测到这个tikv性能有问题从而驱逐了leader
所有节点此值都是1
TiKV 日志中搜索
又搜了下,确实没有, leader是4号上午7:40左右被驱逐的,我把4日的日志全查了一遍,没有以上关键字
把这个节点的日志传上来看看 包含4号的
pd lerader的日志也看下这个时间的
这个有点费劲,我看看能不能想想办法