TiDB频繁报警`tidb_tikvclient_backoff_seconds_count`

Culbr · 2020 年12 月 2 日 03:50

hi，我之前已经参考过了该帖子，通过观察TiDB和TiKV的日志，没有发现原帖主所反映的write conflict现象（但仍然存在我之前反馈过的switch region leader to specific leader due to kv return NotLeader问题），也没有发现有助于解决的任何思路。

如前所述，我们出现问题的那个TiDB节点只承担DM节点的同步任务，并且已经关掉了safe-mode，目前写入QPS在1K~3K上下浮动，但是该报警仍然24H存在。或者再明确一下我们的疑问：

tidb_tikvclient_backoff_seconds_count的报警阈值默认设为10分钟10次，官方是基于什么考量得出的？在单个TiDB节点承载频繁写入的情况下报警远超过默认阈值，是否是可预见的行为？
为什么频繁写入的同时会触发region的频繁调度？
在参考帖子中也提到“可以检查下当前的调度参数设置是否合理”，但我们未对PD参数做过修改，全部默认，是否意味着默认PD参数在高写入的情况下不合理？如果直接调低参数来减少调度行为（如region-schedule-limit从默认的2048修改为参考帖子中的4），是否会有其他隐患？

十分感谢~