TiUP安装部署TiDB v3.1.1 监控中缺少了很多面板

部署环境:

188.30.0.14 tikv 单机2实例
188.30.0.11 tikv 单机2实例
188.30.0.12 pd、tidb、monitoring_servers、grafana_servers、alertmanager_servers: 混合部署

部署topology.yaml文件内容如下:
[tidb@vm01test]$ cat /home/tidb/topology.yaml
global:
user: “tidb”
ssh_port: 22
deploy_dir: “/data/tidb/tidb-deploy”
data_dir: “/data/tidb/tidb-data”

server_configs:
tikv:
readpool.storage.use-unified-pool: false
readpool.coprocessor.use-unified-pool: true
storage.block-cache.shared: true
pd:
replication.location-labels: [“host”]
replication.enable-placement-rules: true
#tidb:

performance.txn-total-size-limit: 536870912

pd_servers:

  • host: 188.30.0.12
    tidb_servers:
  • host: 188.30.0.12

tikv_servers:

  • host: 188.30.0.11
    port: 20160
    status_port: 20180
    #numa_node: “0”
    config:
    server.labels: { host: “tikv1” }
    readpool.unified.max-thread-count: 6
    storage.block-cache.capacity: 7
    raftstore.capactiy: 200
  • host: 188.30.0.11
    port: 20161
    status_port: 20181
    #numa_node: “1”
    config:
    server.labels: { host: “tikv1” }
    readpool.unified.max-thread-count: 6
    storage.block-cache.capacity: 7
    raftstore.capactiy: 200
  • host: 188.30.0.14
    port: 20160
    status_port: 20180
    #numa_node: “0”
    config:
    server.labels: { host: “tikv2” }
    readpool.unified.max-thread-count: 3
    storage.block-cache.capacity: 3
    raftstore.capactiy: 200
  • host: 188.30.0.14
    port: 20161
    status_port: 20181
    #numa_node: “1”
    config:
    server.labels: { host: “tikv2” }
    readpool.unified.max-thread-count: 3
    storage.block-cache.capacity: 3
    raftstore.capactiy: 200
    #tiflash_servers:

- host: 10.0.1.10

monitoring_servers:

  • host: 188.30.0.12

grafana_servers:

  • host: 188.30.0.12

alertmanager_servers:

  • host: 188.30.0.12

部署和启动集群都没有报错。

目前有的监控面板如下图:

缺少很多其他面板(像tidb-test-overview、tidb-test-tidb、tidb-test-tikv等)

组件grafana,prometheus重启后,监控面板仍然没有恢复。
tiup cluster restart tidb-test -R grafana,prometheus

1 个赞

你好。

可以登录一下地址,查看下 promethuce targets 是否都为 up 状态。

http://172.16.5.169:9090/targets

1 个赞

非常感谢你的回复。

集群各组件的状态:

终控机的启动的进场:

2台TiKV机器上启动的进程:

1 个赞

http://IP:9090/targets 显示所有组件都处于UP的状态。

1 个赞
  1. 请登录下Prometheus的界面,查看下是否能看到tikv,tidb,pd这些信息,是否up,多谢

1 个赞

你好上边已回您, [http://IP:9090/targets]显示所有组件都处于UP的状态。该地址([http://IP:9090/targets])就是Prometheus的界面。
截图如下:



1 个赞
  1. 请帮忙确认下集群名称是默认的 test 吗?
  2. 可以尝试将源删除重新导入下吗?删除前查看下配置
    image

1 个赞

您好:

  1. 我部署的集群的名称是:tidb-test
  2. 将源删除重新导入,缺失的面板还是没有回来。

在部署该版本(tidb v3.1.1)前, 在相同的这几台服务器上,部署了tidb 4.0.0-rc.1, 在摧毁tidb 4.0.0-rc.1集群的时候(命令: tiup cluster destroy tidb-test),有报错,摧毁失败(这个没有深入的去查原因,日志文件也都删除了),然后按照一下步骤删除了集群:

  1. 把所有tidb用户启的进程kill了(使用命令:killall -u tidb)。
  2. 手动的删除tidb的部署目录和/etc/systemctl下tidb的一些启动文件(使用命令:rm -rf)。
  3. 卸载了tiup(使用命令:./.tiup/bin/tiup uninstall --self)

把tidb 4.0.0-rc.1版本的集群删除后,开始部署的tidb v3.1.1, 部署步骤如下:

1.重新安装tiup。
2.编写topology.yaml配置文件。(该文件内容在问题页的顶部,已给出内容。)。
3.执行部署命令。

附:部署和启动都没有异常,tiup cluster display tidb-test和 promethuce targets显示集群各组件都处于UP的状态。

不清楚在部署tidb v3.1.1版本集群前的这些操作,是否会对现在这个问题有影响?
非常感谢!

1 个赞

你好,麻烦执行一下以下两条命令:

ls -l /data/tidb/tidb-deploy/grafana-3000/dashboards
ls -l /data/tidb/tidb-deploy/grafana-3000/bin

然后贴以下结果,谢谢

1 个赞

在总控机上执行结果如下:

1 个赞

你好,根据执行结果来看,有部分文件缺失了,执行以下命令可修复:

cd /tmp
mkdir grafana
cd grafana
wget https://tiup-mirrors.pingcap.com/grafana-v3.1.1-linux-amd64.tar.gz
tar xvf grafana-v3.1.1-linux-amd64.tar.gz
cp *.json /data/tidb/tidb-deploy/grafana-3000/bin/
systemctl restart grafana-3000
1 个赞

非常感谢,问题解决。

1 个赞

ok。

我们随后便会将其重新打包,感谢你的反馈,欢迎积极使用 tidb ,有新的问题可以开新帖继续讨论。

1 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。