最近半个月线上一个集群反复触发TiKV_scheduler_latch_wait_duration_seconds告警

xxxxxxxx · 2025 年5 月 13 日 03:18

tidb版本 4.0.13

最近半个月反复触发TiKV_scheduler_latch_wait_duration_seconds告警，跟业务确认，业务侧没任何改动变更。

根据上图的提示看了对应的监控，发现Scheduler command duration和Scheduler latch wait duration都好几秒，感觉有点不正常。

但是看了一下几个tikv节点的机器负载，几乎没啥负载。

最近一个月的io情况也没明显异常

qps情况

TiDBer_jYQINSnf · 2025 年5 月 13 日 05:06

scheduler_latch 等待时间长，说明写入的慢，你看看 raft apply 的时间和 rocksdb 的 wal 写入时间。看看压力大不大？如果纯粹是latch等待时间长，后面没多大压力，可以试着调大 scheduler 线程池。

WalterWj · 2025 年5 月 13 日 11:21

1、看下 gc 是否有异常
2、每个 tikv region 数量有没有很多。

cfzjywxk · 2025 年5 月 14 日 07:10

latch wait 延迟抖动和告警，通常是 tikv 写入延迟(async write) 抖动的结果和现象。

此外 v4.0 版本比较老，建议尝试最新 TiDB release 版本

BrianLiu · 2025 年5 月 14 日 10:07