tikv的leader突增突降

db_user · 2025 年2 月 28 日 03:15

【 TiDB 使用环境】生产
【 TiDB 版本】v7.5.1
【复现路径】业务正常变更
【遇到的问题：问题现象及影响】tikv监控来看突增突降

tikv的leader监控

变动时会有一些slow_tikv_nums的告警
概要: [critical] PD_cluster_slow_tikv_nums
集群: sirius-tidb-lxgzpri
彬彬之前有提到过类似显现，io压力过大，导致leader频繁变动

WalterWj · 2025 年2 月 28 日 03:31

监控里面，
tikv-detail >> pd >> Store slow score 面板对应时间啥样的？

db_user · 2025 年2 月 28 日 03:40

这个是对应的时间段

WalterWj · 2025 年2 月 28 日 03:41

你可以删除对应策略。

db_user · 2025 年2 月 28 日 03:47

看了下文档，这个分数和判定时间好像无法调整，如果把这个调度删除会出现真的慢的时候拖慢集群的影响么，而且这个驱逐后又很快补回来的现象感觉有点怪，这个操作后感觉也会导致tikvclient的重试次数

WalterWj · 2025 年2 月 28 日 03:58

调大这个应该可以调低敏感度。

db_user · 2025 年2 月 28 日 05:39

嗯呢，这个之前也看了，但是我这个80分以上的应该超过30秒了，这里还是想确定下，对于这种高压的场景（预计持续10-30min），是让leader如现在这种切换更好呢，调高阈值，让leader不做切换更好

WalterWj · 2025 年2 月 28 日 05:52

这就看你们能接受哪个了。

db_user · 2025 年2 月 28 日 06:20

好的，感谢大佬，我这里仔细对比了下监控，目前来看起来是因为对应kv节点的cpu较高导致的，当前情况下除了tikv_client重试次数升高外，99，999没有明显变化，暂时不做处理了

db_user · 2025 年3 月 7 日 06:20

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。