【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.4.3
【遇到的问题:问题现象及影响】
近期频繁遇到 tidb_tikvclient_backoff_seconds_count告警,之前已经调整报警阈值到 3000,今天又报警了,达到了惊人的3万
查看监控发现是由于 regionMiss导致的。
想请教下这个问题怎么排查一下是否异常。
如果是正常的region调度,怎么缓解这个问题呢?
【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.4.3
【遇到的问题:问题现象及影响】
近期频繁遇到 tidb_tikvclient_backoff_seconds_count告警,之前已经调整报警阈值到 3000,今天又报警了,达到了惊人的3万
查看监控发现是由于 regionMiss导致的。
想请教下这个问题怎么排查一下是否异常。
如果是正常的region调度,怎么缓解这个问题呢?
是不是leader-schedule-limit
整太大了
有 tikv 挂了?
我这刚报警,也是这个问题,tikv 节点倒是没挂
PD里面的元信息过旧造成的吧
你说的是不是region-schedule-limit 这个参数啊? 我这个参数是有点高,你说的这个不高
“region-schedule-limit”: 2048,
“leader-schedule-limit”: 4,
“region-schedule-limit”: 2048, 感觉应该和这个太大有关,调低一点应该会缓解问题吧
这个报警低默认的阈值有点低,可以调高一些没啥问题
我这是太高了,并且是由于regionmiss导致的
regaionMiss的话,可以调整 region 的 replica 数量、leader 的选举策略
在我这集群里500M算是很正常的了,我看br备份数据的时候达到了8G 也没有引起这个问题~
看下有问题这段时间的SQL语句类型
建议找下这个时间段,region大量调度的原因,结合语句类型,
比如
1、大量查询导致资源类平衡类调度region
2、大量插入或者导致region分裂
3、gc清理导致空region
如果是正常的话,可以限制region调度来缓解
此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。