grafana 的监控指标是如何统计出来的

weixiaobing · 2023 年4 月 20 日 05:49

【 TiDB 使用环境】生产环境
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题：问题现象及影响】
生产环境在做tikv 扩容的时候，中间出现了一点问题，查看监控时发现。 Overview 里面的Services Port Status 显示 tikv 的节点数和dashboard 显示的节点数不一致
【资源配置】
【附件：截图/日志/监控】

tidb菜鸟一只 · 2023 年4 月 20 日 06:09

连得prometheus查的，可以tiup cluster reload -R prometheus
reload下普罗米修斯试下

DBRE · 2023 年4 月 20 日 06:11

grafana的数据来源于Prometheus，Grafana的datasource记录的就是对应tidb集群的prometheus地址。
可以在Grafana打开对应图的edit，查看对于的promql，然后拿promql在prometheus查询

若数量不对，可以是用tiup cluster reload xxxx -R prometheus再看下

weixiaobing · 2023 年4 月 20 日 06:15

现在是想知道probe_success 这个指标是怎么统计的？因为prometheus reload 重启非常的慢，重启期间监控都没有，所以很少reload prometheus

DBRE · 2023 年4 月 20 日 06:34

probe_success指标是各个节点对应的blackbox_exporter做的，应该是通过tcp连接各个节点的状态端口来判断是否存活的。
可以查看prometheus.yml配置文件中的job_name: “tidb_port_probe”，prometheus会定期获取probe_success指标，具体原理得找下blackbox_exporter的实现了

weixiaobing · 2023 年4 月 20 日 06:53

其实就是想知道probe_success 等一些监控指标，具体的计算逻辑。如果这些逻辑都清楚了，那么排查问题就容易多了

DBRE · 2023 年4 月 20 日 08:30

认同，理解指标的含义与计算逻辑有助于问题排查。但是官方对应监控指标的详细解释确实不多，各个组件状态接口返回的metric解释也很少。排查问题很难结合与利用这些指标。

liuis · 2023 年4 月 21 日 06:28

prometheus时序数据库，grafana只是一个展示而已