tikv的leader突增突降

【 TiDB 使用环境】生产
【 TiDB 版本】v7.5.1
【复现路径】业务正常变更
【遇到的问题:问题现象及影响】tikv监控来看突增突降

tikv的leader监控

变动时会有一些slow_tikv_nums的告警
概要: [critical] PD_cluster_slow_tikv_nums
集群: sirius-tidb-lxgzpri
彬彬之前有提到过类似显现,io压力过大,导致leader频繁变动

监控里面,
tikv-detail >> pd >> Store slow score 面板对应时间啥样的?


这个是对应的时间段

1 个赞

哦 那应该是判定相关节点是 slow store 节点,进行了 leader 驱逐。
https://docs.pingcap.com/zh/tidb/stable/pd-scheduling-best-practices#tikv-节点故障处理策略

你可以删除对应策略。

看了下文档,这个分数和判定时间好像无法调整,如果把这个调度删除会出现真的慢的时候拖慢集群的影响么,而且这个驱逐后又很快补回来的现象感觉有点怪,这个操作后感觉也会导致tikvclient的重试次数

https://docs.pingcap.com/zh/tidb/stable/tikv-configuration-file#inspect-interval

调大这个应该可以调低敏感度。

嗯呢,这个之前也看了,但是我这个80分以上的应该超过30秒了,这里还是想确定下,对于这种高压的场景(预计持续10-30min),是让leader如现在这种切换更好呢,调高阈值,让leader不做切换更好

这就看你们能接受哪个了。

好的,感谢大佬,我这里仔细对比了下监控,目前来看起来是因为对应kv节点的cpu较高导致的,当前情况下除了tikv_client重试次数升高外,99,999没有明显变化,暂时不做处理了

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。