TIDB regionMiss导致 Backoff太高怎么解决/缓解

老龚caiji · 2024 年3 月 4 日 10:21

【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.4.3
【遇到的问题：问题现象及影响】
近期频繁遇到 tidb_tikvclient_backoff_seconds_count告警，之前已经调整报警阈值到 3000，今天又报警了，达到了惊人的3万

查看监控发现是由于 regionMiss导致的。

想请教下这个问题怎么排查一下是否异常。
如果是正常的region调度，怎么缓解这个问题呢？

江湖故人 · 2024 年3 月 4 日 10:41

是不是leader-schedule-limit整太大了

yiduoyunQ · 2024 年3 月 4 日 11:31

有 tikv 挂了？

没头脑123 · 2024 年3 月 4 日 11:37

我这刚报警，也是这个问题，tikv 节点倒是没挂

dba远航 · 2024 年3 月 5 日 00:50

PD里面的元信息过旧造成的吧

老龚caiji · 2024 年3 月 5 日 00:57

你说的是不是region-schedule-limit 这个参数啊？我这个参数是有点高，你说的这个不高
“region-schedule-limit”: 2048,
“leader-schedule-limit”: 4,

“region-schedule-limit”: 2048, 感觉应该和这个太大有关，调低一点应该会缓解问题吧

老龚caiji · 2024 年3 月 5 日 00:58

tikv没有挂的，查看监控发现这段时间查询流量有点大，正常和这个报警的时间吻合。
但是没太明白为啥查询会导致这个问题呢？

老龚caiji · 2024 年3 月 5 日 00:59

这个报警低默认的阈值有点低，可以调高一些没啥问题
我这是太高了，并且是由于regionmiss导致的

redgame · 2024 年3 月 5 日 01:02

regaionMiss的话，可以调整 region 的 replica 数量、leader 的选举策略

江湖故人 · 2024 年3 月 5 日 03:21

调度参数不高，这都是默认值。
应该就是KV读IO异常导致，看截图平均都500MB/s了，如果QPS正常，可以参考表妹整理的文章[1]优化下慢SQL，减少全表扫描。

老龚caiji · 2024 年3 月 5 日 05:55

在我这集群里500M算是很正常的了，我看br备份数据的时候达到了8G 也没有引起这个问题~

IanWong · 2024 年3 月 8 日 02:47

看下有问题这段时间的SQL语句类型

IanWong · 2024 年3 月 11 日 02:59

建议找下这个时间段，region大量调度的原因，结合语句类型，
比如
1、大量查询导致资源类平衡类调度region
2、大量插入或者导致region分裂
3、gc清理导致空region
如果是正常的话，可以限制region调度来缓解

system · 2024 年5 月 10 日 03:00

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。