TiDB告警如何处理TiDB tikvclient_backoff_count error,半天了没有恢复

【 TiDB 使用环境】生产环境
【 TiDB 版本】v6.1.0
【复现路径】无
【遇到的问题:问题现象及影响】
一直告警tidb_tikvclient_backoff_seconds_count,没有恢复,如何处理,看集群状态都正常
告警内容:
[指标]: :red_circle:

[TiDB tikvclient_backoff_count error

[描述]: cluster: tidb-iap, instance: , values:404.1025641025641
[开始时间]:

[详情]:
alertname: tidb_tikvclient_backoff_seconds_count
cluster: tidb-iap
env: tidb-iap
expr: increase( tidb_tikvclient_backoff_seconds_count[10m] ) > 10

正常region 产生调度就会发生 backoff ,如果量不是特别大不用特意处理,可以看下 grafana 监控 TiDB - KV ERRORS 观察下 backoff 的具体情况

1 个赞

backoff主要基于你的集群负载,如果集群很忙,确实backoff要多一点,可以看下历史记录,设置一个合适的值

  1. 检查 TiKV 状态:首先确保 TiKV 节点正常运行,并且没有明显的负载过高或其他异常状态。可以通过 TiKV 的监控界面或者日志来查看节点的状态信息。
  2. 检查网络连接:检查 TiDB 和 TiKV 节点之间的网络连接是否正常稳定,排除网络波动或者故障的可能性。
  3. 调整 TiKV 配置:根据实际情况调整 TiKV 的配置参数,比如调整 Region 相关的参数、调整 Raft 参数等,以减少 RPC 调用的频率。
  4. 升级 TiDB 版本:考虑升级 TiDB 到最新版本,可能已经修复了相关的 bug 或优化了性能。
  5. 增加 TiKV 节点:如果负载过高导致 tikvclient_backoff_count 错误,可以考虑增加 TiKV 节点数量来分担负载。
2 个赞

应该是PD里面的元信息没有及时更新造成的

发个完整日志

TiDB 访问 TiKV 发生错误时发起重试的次数。如果在 10 分钟之内重试次数多于 10 次,则报警。
我觉得这个10次阀值偏低可以适当调大

1 个赞

backoff 的信息有么?

可以考虑增加资源试试