升级后监控信息展示有问题

版本升级到V4.0.7后,grafana监控展示和tidb dashaboard不一致,
节点信息刷新一次出来 但是数量不对,下一次页面刷新会消失,在下一次刷新又出来展示的是错误信息,我通过
tiup cluster restart <cluster-name> -R prometheus,grafana重启后 还是有相同问题;

你好,麻烦用 tiup cluster display 反馈下目前集群的拓扑结构,另外请核实下 grafana 中 “Service Port Status” 中监控配置项是否正确,看下有无 tidb、pd 等配置信息:


我看了监控项都有的,

请问下原先集群是从什么版本升级到 v4.0.7 的?

从4.0.4版本升级的

你好,我这边测试将一个 v4.0.4 的集群升级到 v4.0.7,发现并没有复现出你的问题,不知道你这边是否方便将 grafana 缩容后重新扩容进去,看下能否恢复正常。

你好 我通过扩容在161上一个grafana缩容168的grafana,此时161和168一样也是不展示,或者展示的时候数据都已kv、tidb、pd都是1 ,然后在扩容到168缩容161,结果没有变化;

全部服务重启我也试过 还是一样的问题

麻烦你直接登录下 prometheus 的地址,看下监控里的数据是否准确,如果不准确的话可以重新安装下 prometheus:
1.登录 prometheus 地址:{ip}:9090
2.分别输入参数

  • count(probe_success{group=“tikv”} == 1)
  • count(probe_success{group=“pd”} == 1)
  • count(probe_success{group=“tidb”} == 1)
    点击“Execute”,看下 value 是否正确

数据不准确的 可以删除直接缩容 然后在通过扩容安装么

可以通过 tiup 缩容之后再扩容加进来

我重新安装了 还是一样的存在问题;而且发现了一个规律貌似画图表的都能展示,需要展示数据的好像都不行

请问下 prometheus 重新安装后里面采集的数据还是错误的吗?

是的 重新安装了prometheu后还是一样的问题


发现了 部分数据prometheus里应该是对的 页面定时刷新获取展示的时候有问题 连接数current显示的一直是0 但是等过一会来看该时间点,数据又是有的

请问一下,prometheus 重新安装之后 grafana 有重启吗?

有重启的 我后来 整个数据库都重启过 问题还是存在

参考这个流程看下不知道是否有帮助,可以看看主机metrics中的数据和Prometheus数据,Prometheus 数据和 grafana 数据,每一个环节能否对应上。

另外麻烦确认下,在升级前后有没有调整过防火墙之类的网络策略,可以看下 prometheus 到其他组件节点 IP 、port 的通信是否都正常,有无丢包现象等。

我防火墙全部关闭的

按照这个检查步骤 在promethus的控制台输入 了cpu、当前连接数等变量 在promethus控制台都查询不到值;

然后我通过http://ip:9100/metrics | grep 方式检查 每个节点都能查到数据;

目前检查下来问题应该出在 从prometheus里面查询不到数据

确认下是在 prometheus 那台主机上通过curl http://ip:9100/metrics | grep 方式检查每个节点都能查到数据吗?