Prometheus Metric 中取不到值

【 TiDB 使用环境】生产环境 【 TiDB 版本】V5.1.4 ARM 【遇到的问题】 Prometheus 中 通过 pql 查询不到数据 使用 probe_success 去查询集群的各个组件无法获取到相应的数据 【复现路径】做过哪些操作出现的问题`
【问题现象及影响】
下面是测试环境(显示正常):
当我使用 probe_success{group=“tidb”} 查询集群中所有 TiDB 组件,是可以获取到的,一共有三条记录,且 group 都为 tidb

生产环境获取不到图片,但是现象:
使用 probe_success{group=“tidb”} 查询不到任何数据,把 tidb 换成其他的组件也查不到数据
使用 probe_success{} 不通过 group 过滤时,会发现有数据,但是都没有 group 这个字段

问题:

  1. 目前几套库,只有一套库存在这个问题,大概是什么原因?
  2. 如何排查这个问题,排查思路如何 ?
  3. 哪里能够看到 probe_success 这个 metric 的配置信息?

probe_success 是一个 prometheus 生成的 metric,当从 instance 拉取到 数据则标为 1,配置信息在 prometheus 的配置文件里 job_name 后缀为 probe 的配置项。

排查思路建议摸 prometheus scrap 数据的整个流程,probe 一般是通过探测 tcp 端口是否可以连接到。

这个问题已经排查解决了,原因是因为对应的 replacement 的 blackbox exporter 和 node exporter 节点挂掉了。
根本原因是之前配置了 ignore_exporter: true 然后停掉 blackbox exporter 和 node exporter 后,没有再起起来了:joy:

1 Like

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。