升级后监控信息展示有问题

corey · 2020 年10 月 9 日 02:16

版本升级到V4.0.7后，grafana监控展示和tidb dashaboard不一致，
节点信息刷新一次出来但是数量不对，下一次页面刷新会消失，在下一次刷新又出来展示的是错误信息，我通过
tiup cluster restart <cluster-name> -R prometheus,grafana重启后还是有相同问题；

这道题我不会 · 2020 年10 月 9 日 02:34

你好，麻烦用 tiup cluster display 反馈下目前集群的拓扑结构，另外请核实下 grafana 中 “Service Port Status” 中监控配置项是否正确，看下有无 tidb、pd 等配置信息：

corey · 2020 年10 月 9 日 03:31

我看了监控项都有的，

这道题我不会 · 2020 年10 月 9 日 05:16

请问下原先集群是从什么版本升级到 v4.0.7 的？

corey · 2020 年10 月 9 日 05:19

从4.0.4版本升级的

这道题我不会 · 2020 年10 月 9 日 05:49

你好，我这边测试将一个 v4.0.4 的集群升级到 v4.0.7，发现并没有复现出你的问题，不知道你这边是否方便将 grafana 缩容后重新扩容进去，看下能否恢复正常。

corey · 2020 年10 月 9 日 08:24

你好我通过扩容在161上一个grafana缩容168的grafana，此时161和168一样也是不展示，或者展示的时候数据都已kv、tidb、pd都是1 ，然后在扩容到168缩容161，结果没有变化；

全部服务重启我也试过还是一样的问题

这道题我不会 · 2020 年10 月 9 日 08:45

麻烦你直接登录下 prometheus 的地址，看下监控里的数据是否准确，如果不准确的话可以重新安装下 prometheus：
1.登录 prometheus 地址：{ip}:9090
2.分别输入参数

count(probe_success{group=“tikv”} == 1)
count(probe_success{group=“pd”} == 1)
count(probe_success{group=“tidb”} == 1)
点击“Execute”，看下 value 是否正确

corey · 2020 年10 月 9 日 08:55

数据不准确的可以删除直接缩容然后在通过扩容安装么

这道题我不会 · 2020 年10 月 9 日 09:01

可以通过 tiup 缩容之后再扩容加进来

corey · 2020 年10 月 9 日 09:21

我重新安装了还是一样的存在问题；而且发现了一个规律貌似画图表的都能展示，需要展示数据的好像都不行

这道题我不会 · 2020 年10 月 9 日 09:34

请问下 prometheus 重新安装后里面采集的数据还是错误的吗？

corey · 2020 年10 月 12 日 02:50

是的重新安装了prometheu后还是一样的问题

发现了部分数据prometheus里应该是对的页面定时刷新获取展示的时候有问题连接数current显示的一直是0 但是等过一会来看该时间点，数据又是有的

这道题我不会 · 2020 年10 月 12 日 07:05

请问一下，prometheus 重新安装之后 grafana 有重启吗？

corey · 2020 年10 月 14 日 01:51

有重启的我后来整个数据库都重启过问题还是存在

yilong · 2020 年10 月 14 日 03:21

参考这个流程看下不知道是否有帮助，可以看看主机metrics中的数据和Prometheus数据，Prometheus 数据和 grafana 数据，每一个环节能否对应上。

这道题我不会 · 2020 年10 月 14 日 03:27

另外麻烦确认下，在升级前后有没有调整过防火墙之类的网络策略，可以看下 prometheus 到其他组件节点 IP 、port 的通信是否都正常，有无丢包现象等。

corey · 2020 年10 月 15 日 08:48

我防火墙全部关闭的

corey · 2020 年10 月 15 日 08:51

按照这个检查步骤在promethus的控制台输入了cpu、当前连接数等变量在promethus控制台都查询不到值；

然后我通过http://ip:9100/metrics | grep 方式检查每个节点都能查到数据；

目前检查下来问题应该出在从prometheus里面查询不到数据

这道题我不会 · 2020 年10 月 16 日 03:40

确认下是在 prometheus 那台主机上通过curl http://ip:9100/metrics | grep 方式检查每个节点都能查到数据吗？