部分告警信息存在 故障主机为空的情况

tidb 4.0.13版本
企业微信告警如下图,近日发现TiKV_server_report_failure_msg_total部分的告警的故障主机部分为空。
%E5%9B%BE%E7%89%87

prometheus的配置都是默认的,TiKV_server_report_failure_msg_total段的配置如下

1 Like

麻烦在 prometheus 里面查看一下 TiKV_server_report_failure_msg_total 的 alert。
比如下面的例子

就是获取不到故障主机,如下图

这个可以在 prometheus 里面直接搜索 tikv_server_report_failure_msg_total 看一下是否有 instance 的标签吗

alertmanager 前面有一个 sum by store id。
尝试把这个 sum by(store_id) (rate(tikv_server_report_failure_msg_total{type=“unreachable”}[10m])) > -1
的 sum 表达是去掉,可以看到 instance 的信息

1 Like

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。