TiDB告警如何处理TiDB tikvclient_backoff_count error,半天了没有恢复

TiDBer_oqrCNpbV · 2024 年3 月 4 日 03:32

【 TiDB 使用环境】生产环境
【 TiDB 版本】v6.1.0
【复现路径】无
【遇到的问题：问题现象及影响】
一直告警tidb_tikvclient_backoff_seconds_count，没有恢复，如何处理，看集群状态都正常
告警内容：
[指标]：

[TiDB tikvclient_backoff_count error

[描述]： cluster: tidb-iap, instance: , values:404.1025641025641
[开始时间]：

[详情]：
alertname： tidb_tikvclient_backoff_seconds_count
cluster： tidb-iap
env： tidb-iap
expr： increase( tidb_tikvclient_backoff_seconds_count[10m] ) > 10

Jasper · 2024 年3 月 4 日 07:46

正常region 产生调度就会发生 backoff ，如果量不是特别大不用特意处理，可以看下 grafana 监控 TiDB - KV ERRORS 观察下 backoff 的具体情况

tidb菜鸟一只 · 2024 年3 月 4 日 07:54

backoff主要基于你的集群负载，如果集群很忙，确实backoff要多一点，可以看下历史记录，设置一个合适的值

哈喽沃德 · 2024 年3 月 4 日 11:46

检查 TiKV 状态：首先确保 TiKV 节点正常运行，并且没有明显的负载过高或其他异常状态。可以通过 TiKV 的监控界面或者日志来查看节点的状态信息。
检查网络连接：检查 TiDB 和 TiKV 节点之间的网络连接是否正常稳定，排除网络波动或者故障的可能性。
调整 TiKV 配置：根据实际情况调整 TiKV 的配置参数，比如调整 Region 相关的参数、调整 Raft 参数等，以减少 RPC 调用的频率。
升级 TiDB 版本：考虑升级 TiDB 到最新版本，可能已经修复了相关的 bug 或优化了性能。
增加 TiKV 节点：如果负载过高导致 tikvclient_backoff_count 错误，可以考虑增加 TiKV 节点数量来分担负载。

dba远航 · 2024 年3 月 5 日 00:51

应该是PD里面的元信息没有及时更新造成的

redgame · 2024 年3 月 5 日 01:00

发个完整日志

像风一样的男子 · 2024 年3 月 5 日 01:21

TiDB 访问 TiKV 发生错误时发起重试的次数。如果在 10 分钟之内重试次数多于 10 次，则报警。
我觉得这个10次阀值偏低可以适当调大

TiDBer_aaO4sU46 · 2024 年3 月 5 日 01:30

backoff 的信息有么？

小于同学 · 2024 年3 月 5 日 01:42

可以考虑增加资源试试