TIDB regionMiss导致 Backoff太高怎么解决/缓解

【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.4.3
【遇到的问题:问题现象及影响】
近期频繁遇到 tidb_tikvclient_backoff_seconds_count告警,之前已经调整报警阈值到 3000,今天又报警了,达到了惊人的3万

查看监控发现是由于 regionMiss导致的。

想请教下这个问题怎么排查一下是否异常。
如果是正常的region调度,怎么缓解这个问题呢?

是不是leader-schedule-limit整太大了

有 tikv 挂了?

我这刚报警,也是这个问题,tikv 节点倒是没挂

PD里面的元信息过旧造成的吧

你说的是不是region-schedule-limit 这个参数啊? 我这个参数是有点高,你说的这个不高
“region-schedule-limit”: 2048,
“leader-schedule-limit”: 4,

“region-schedule-limit”: 2048, 感觉应该和这个太大有关,调低一点应该会缓解问题吧

tikv没有挂的,查看监控 发现这段时间查询流量有点大,正常和这个报警的时间吻合。
但是没太明白为啥查询会导致这个问题呢?

这个报警低默认的阈值有点低,可以调高一些没啥问题
我这是太高了,并且是由于regionmiss导致的

regaionMiss的话,可以调整 region 的 replica 数量、leader 的选举策略

调度参数不高,这都是默认值。
应该就是KV读IO异常导致,看截图平均都500MB/s了,如果QPS正常,可以参考表妹整理的文章[1]优化下慢SQL,减少全表扫描。

在我这集群里500M算是很正常的了,我看br备份数据的时候达到了8G 也没有引起这个问题~

看下有问题这段时间的SQL语句类型

建议找下这个时间段,region大量调度的原因,结合语句类型,
比如
1、大量查询导致资源类平衡类调度region
2、大量插入或者导致region分裂
3、gc清理导致空region
如果是正常的话,可以限制region调度来缓解

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。