TIDB 升级后 Grafana 没数据

提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
【概述】场景+问题概述
由v4.0.0升级到v4.0.9后,System Info还可以看到图表,第二天早上打开后System Info没有图表了(其它图表正常)!
另一个集群由v4.0.0升级到v4.0.12后,图表是正常的
【背景】做过哪些操作
【现象】业务和数据库现象
【业务影响】
【TiDB 版本】
由v4.0.0升级到v4.0.9
【附件】

  1. TiUP Cluster Display 信息
    Starting component cluster: /root/.tiup/components/cluster/v1.3.2/tiup-cluster display tidb-test
    Cluster type: tidb
    Cluster name: tidb-test
    Cluster version: v4.0.9
    SSH type: builtin
    Dashboard URL: http://192.168.0.145:2379/dashboard
    ID Role Host Ports OS/Arch Status Data Dir Deploy Dir

192.168.0.143:9093 alertmanager 192.168.0.143 9093/9094 linux/x86_64 Up /data/tidb/tidb-data/alertmanager-9093 /data/tidb/tidb-deploy/alertmanager-9093
192.168.0.143:3000 grafana 192.168.0.143 3000 linux/x86_64 Up - /data/tidb/tidb-deploy/grafana-3000
192.168.0.143:2379 pd 192.168.0.143 2379/2380 linux/x86_64 Up /data/tidb/tidb-data/pd-2379 /data/tidb/tidb-deploy/pd-2379
192.168.0.144:2379 pd 192.168.0.144 2379/2380 linux/x86_64 Up|L /data/tidb/tidb-data/pd-2379 /data/tidb/tidb-deploy/pd-2379
192.168.0.145:2379 pd 192.168.0.145 2379/2380 linux/x86_64 Up|UI /data/tidb/tidb-data/pd-2379 /data/tidb/tidb-deploy/pd-2379
192.168.0.143:9090 prometheus 192.168.0.143 9090 linux/x86_64 Up /data/tidb/tidb-data/prometheus-9090 /data/tidb/tidb-deploy/prometheus-9090
192.168.0.143:4000 tidb 192.168.0.143 4000/10080 linux/x86_64 Up - /data/tidb/tidb-deploy/tidb-4000
192.168.0.144:4000 tidb 192.168.0.144 4000/10080 linux/x86_64 Up - /data/tidb/tidb-deploy/tidb-4000
192.168.0.145:4000 tidb 192.168.0.145 4000/10080 linux/x86_64 Up - /data/tidb/tidb-deploy/tidb-4000
192.168.0.137:20160 tikv 192.168.0.137 20160/20180 linux/x86_64 Up /data/tidb_data/tikv-20160 /data/tidb_deploy/tikv-20160
192.168.0.138:20160 tikv 192.168.0.138 20160/20180 linux/x86_64 Up /data/tidb_data/tikv-20160 /data/tidb_deploy/tikv-20160
192.168.0.140:20160 tikv 192.168.0.140 20160/20180 linux/x86_64 Up /data/tidb_data/tikv-20160 /data/tidb_deploy/tikv-20160
192.168.0.146:20160 tikv 192.168.0.146 20160/20180 linux/x86_64 Up /data/tidb_data/tikv-20160 /data/tidb_deploy/tikv-20160
Total nodes: 13

  1. TiUP Cluster Edit Config 信息

  2. TiDB- Overview 监控

3 Likes

看一下集群状态,promethes状态

2 Likes

您看下TiUP Cluster Display 信息,状态是UP

2 Likes

你可以先试试 重新reload一个下promethes

2 Likes

reload后故障依旧,需要restart?

2 Likes

升级过程中是否有异常停止过?

2 Likes

可以参考这个帖子排查下吗?多谢。

2 Likes

升级没有异常停止,有一套测试集群也是一样的故障,升级过程:
1、停集群
2、升级tiup
3、升级tiup cluster
4、升级集群,加参数 --force

2 Likes

检查一下防火墙和端口是否是通的

2 Likes

您好,防火墙是关着的

2 Likes

在确认下其他机器是否能访问监控机器的端口

2 Likes

从这个时间以后就没有数据了,晚上22点多做的升级

image
telnet 9090端口看样子是没问题的

你可以看下 还有其他端口

  1. 第 7 步本机有数据是吧
  2. 第 6 步骤没有数据? 那么重点检查下 Prometheus 的端口和拉取数据的端口,如果可以的话,尝试重启Prometheus试试。
  3. 查看下 Prometheus 主机上是否有 hang 死的进程,如果有 kill 试试。

测试库restart 9090后,已经恢复正常了。一会我在正式环境试下

:+1::+1::+1:

好像是Node_exporter没启动,所以数据采集不上来,晚上我把集群重启试下
alertname=“Node_exporter_server_is_down”+
env=“ENV_LABELS_ENV”+
group=“node_exporter”+
instance=“192.168.0.144:9100”+
job=“tidb_port_probe”

重启集群后图表显示正常。原因是Node_exporter服务挂了,日志中也没查到有用的信息,实际上启动下集群即可解决,启动时会把没启动的服务启动

:+1: