消除告警,调整参数

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】v5.4.0 3tidb 3pd 3tikv
【复现路径】监控提示 TiDB_tikvclient_backoff_seconds_count[10M]>10,这个警告没有影响业务,但是经常报,请问怎么消除这个告警,TiDB_tikvclient_backoff_seconds_count这个参数怎么调大。
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】

修改/tidb-deploy/prometheus-8249/conf/tidb.rules.yml 文件中参数

labels:
env: tsp-prod-tidb-cluster
level: warning
expr: increase( tidb_tikvclient_backoff_seconds_count[10m] ) > 10

然后重启prometheus服务

TiDB_tikvclient_backoff_seconds_count

  • 报警规则:increase(tidb_tikvclient_backoff_seconds_count[10m]) > 10
  • 规则描述:TiDB 访问 TiKV 发生错误时发起重试的次数。如果在 10 分钟之内重试次数多于 10 次,则报警。
1 个赞

最好是中控机配置,不然配置 reload 会被覆盖。

1 个赞

拉进黑名单 ,眼不见为净

我去,万一真的backoff 呢…

那肯定是磁盘出问题了,会有其他报错告警

:joy:这个有点过分了~

告警级别是warning ,可以忽略

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。