TiUP安装部署TiDB v3.1.1 监控中缺少了很多面板

liuhuanHappyStudy · 2020 年5 月 12 日 02:59

部署环境：

188.30.0.14 tikv 单机2实例
188.30.0.11 tikv 单机2实例
188.30.0.12 pd、tidb、monitoring_servers、grafana_servers、alertmanager_servers: 混合部署

部署topology.yaml文件内容如下：
[tidb@vm01test]$ cat /home/tidb/topology.yaml
global:
user: “tidb”
ssh_port: 22
deploy_dir: “/data/tidb/tidb-deploy”
data_dir: “/data/tidb/tidb-data”

server_configs:
tikv:
readpool.storage.use-unified-pool: false
readpool.coprocessor.use-unified-pool: true
storage.block-cache.shared: true
pd:
replication.location-labels: [“host”]
replication.enable-placement-rules: true
#tidb:

performance.txn-total-size-limit: 536870912

pd_servers:

host: 188.30.0.12
tidb_servers:
host: 188.30.0.12

tikv_servers:

host: 188.30.0.11
port: 20160
status_port: 20180
#numa_node: “0”
config:
server.labels: { host: “tikv1” }
readpool.unified.max-thread-count: 6
storage.block-cache.capacity: 7
raftstore.capactiy: 200
host: 188.30.0.11
port: 20161
status_port: 20181
#numa_node: “1”
config:
server.labels: { host: “tikv1” }
readpool.unified.max-thread-count: 6
storage.block-cache.capacity: 7
raftstore.capactiy: 200
host: 188.30.0.14
port: 20160
status_port: 20180
#numa_node: “0”
config:
server.labels: { host: “tikv2” }
readpool.unified.max-thread-count: 3
storage.block-cache.capacity: 3
raftstore.capactiy: 200
host: 188.30.0.14
port: 20161
status_port: 20181
#numa_node: “1”
config:
server.labels: { host: “tikv2” }
readpool.unified.max-thread-count: 3
storage.block-cache.capacity: 3
raftstore.capactiy: 200
#tiflash_servers:

- host: 10.0.1.10

monitoring_servers:

host: 188.30.0.12

grafana_servers:

host: 188.30.0.12

alertmanager_servers:

host: 188.30.0.12

部署和启动集群都没有报错。

目前有的监控面板如下图：

缺少很多其他面板（像tidb-test-overview、tidb-test-tidb、tidb-test-tikv等）

组件grafana,prometheus重启后，监控面板仍然没有恢复。
tiup cluster restart tidb-test -R grafana,prometheus

来了老弟 · 2020 年5 月 12 日 03:08

你好。

可以登录一下地址，查看下 promethuce targets 是否都为 up 状态。

http://172.16.5.169:9090/targets

liuhuanHappyStudy · 2020 年5 月 12 日 07:30

非常感谢你的回复。

集群各组件的状态：

终控机的启动的进场：

2台TiKV机器上启动的进程：

liuhuanHappyStudy · 2020 年5 月 12 日 07:32

http://IP:9090/targets 显示所有组件都处于UP的状态。

yilong · 2020 年5 月 12 日 08:36

请登录下Prometheus的界面，查看下是否能看到tikv，tidb，pd这些信息，是否up，多谢

image946×415 32.1 KB

liuhuanHappyStudy · 2020 年5 月 12 日 09:29

你好上边已回您， [http://IP:9090/targets]显示所有组件都处于UP的状态。该地址（[http://IP:9090/targets]）就是Prometheus的界面。
截图如下：

yilong · 2020 年5 月 12 日 12:49

请帮忙确认下集群名称是默认的 test 吗？
可以尝试将源删除重新导入下吗？删除前查看下配置

liuhuanHappyStudy · 2020 年5 月 13 日 01:57

您好：

我部署的集群的名称是：tidb-test
将源删除重新导入，缺失的面板还是没有回来。

image653×843 39 KB

在部署该版本（tidb v3.1.1）前, 在相同的这几台服务器上，部署了tidb 4.0.0-rc.1，在摧毁tidb 4.0.0-rc.1集群的时候(命令： tiup cluster destroy tidb-test)，有报错，摧毁失败（这个没有深入的去查原因，日志文件也都删除了），然后按照一下步骤删除了集群：

把所有tidb用户启的进程kill了（使用命令：killall -u tidb）。
手动的删除tidb的部署目录和/etc/systemctl下tidb的一些启动文件（使用命令：rm -rf）。
卸载了tiup(使用命令：./.tiup/bin/tiup uninstall --self)

把tidb 4.0.0-rc.1版本的集群删除后，开始部署的tidb v3.1.1, 部署步骤如下：

1.重新安装tiup。
2.编写topology.yaml配置文件。（该文件内容在问题页的顶部，已给出内容。）。
3.执行部署命令。

附：部署和启动都没有异常，tiup cluster display tidb-test和 promethuce targets显示集群各组件都处于UP的状态。

不清楚在部署tidb v3.1.1版本集群前的这些操作，是否会对现在这个问题有影响？
非常感谢！

lucklove · 2020 年5 月 13 日 03:19

你好，麻烦执行一下以下两条命令：

ls -l /data/tidb/tidb-deploy/grafana-3000/dashboards
ls -l /data/tidb/tidb-deploy/grafana-3000/bin

然后贴以下结果，谢谢

liuhuanHappyStudy · 2020 年5 月 13 日 03:20

在总控机上执行结果如下：

lucklove · 2020 年5 月 13 日 03:39

你好，根据执行结果来看，有部分文件缺失了，执行以下命令可修复：

cd /tmp
mkdir grafana
cd grafana
wget https://tiup-mirrors.pingcap.com/grafana-v3.1.1-linux-amd64.tar.gz
tar xvf grafana-v3.1.1-linux-amd64.tar.gz
cp *.json /data/tidb/tidb-deploy/grafana-3000/bin/
systemctl restart grafana-3000

liuhuanHappyStudy · 2020 年5 月 13 日 03:48

非常感谢，问题解决。

来了老弟 · 2020 年5 月 13 日 03:52

ok。

我们随后便会将其重新打包，感谢你的反馈，欢迎积极使用 tidb ，有新的问题可以开新帖继续讨论。

system · 2022 年10 月 31 日 19:12

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。