expr = sum(increase(tidb_tikvclient_gc_action_result{type="success"}[6h])) < 1
level = emergency
monitor = prometheus
TiDB的这个报警意味着什么?有没排查思路建议?
expr = sum(increase(tidb_tikvclient_gc_action_result{type="success"}[6h])) < 1
level = emergency
monitor = prometheus
TiDB的这个报警意味着什么?有没排查思路建议?
如需提问,请按照 提问须知模版提问,另外,可以看下这个报警详细的日志内容。
1.执行 select VARIABLE_VALUE from mysql.tidb where VARIABLE_NAME=“tikv_gc_leader_desc”; 找到 gc leader 对应的 tidb-server;
2.查看该 tidb-server 的日志,grep gc_worker tidb.log;
如果发现这段时间一直在 resolve locks(最后一条日志是 start resolve locks ) 或者 delete ranges(最后一条日志是 start delete {number} ranges) 说明是正常现象
tidb-server日志查过的,gc确认是没问题。但是这个报警看起来挺严重的,还是emergency级别。
tidb-server不知道为什么停止更新tidb_tikvclient_gc_action_result这个指标了,先是这个指标的值一直不变,再过几天,Prometheus里连这个指标都查不到了。
可以根据 prometheus 日志检查下相关状态。
请按照 提问须知模版提问。补充一下版本信息 以及相应的日志