3.1.1 版本Grafana的tidb-cluster-overview中的 System Info显示数据不完整

升级到3.1.1 版本后,Tidb-cluster-overview中的 System Info,只显示 Grafana 所在服务器的数据,未能显示TiDB、PD、TIKv服务器的信息。

你好,

请检查下tidb tikv pd 的其他监控是否完整,

请上传下集群 yaml 文件

tidb tikv pd 监控数据完整
yaml 文件 如下

tidb.yml (2.3 KB)

你好

请问该 yaml 是自己编写的还是导出的?

通过 edit-config 去掉 imported: true 并尝试重启集群试下。

这个文件是通过tidb-ansible导入的。
去掉所有的 imported: true 后,保存的时候报错:
[tidb@tidb-1 ~]$ tiup cluster edit-config tidb-cluster Starting component cluster: /home/tidb/.tiup/components/cluster/v0.6.0/cluster edit-config tidb-cluster Failed to parse topology file: directory ‘/data1/deploy’ conflicts between ‘tidb_servers:10.10.5.29.deploy_dir’ and ‘pd_servers:10.10.5.29.deploy_dir’

Error: directory ‘/data1/deploy’ conflicts between ‘tidb_servers:10.10.5.29.deploy_dir’ and ‘pd_servers:10.10.5.29.deploy_dir’

Verbose debug logs has been written to /home/tidb/logs/tiup-cluster-debug-2020-05-07-16-01-41.log. Error: run /home/tidb/.tiup/components/cluster/v0.6.0/cluster (wd:/home/tidb/.tiup/data/RyHsHTq) failed: exit status 1

你好,

上传下:/home/tidb/logs/tiup-cluster-debug-2020-05-07-16-01-41.log,看下配置文件中是否存在特殊配置

tiup-cluster-debug-2020-05-07-16-01-41.log (5.4 KB)

你好,

从日志中看,目前目录配置存在冲突,建议优化下

可以将各个节点的 deploy_dir data_dir 提取到 global 中进行统一配置。

效果如下,各个节点目录会根据端口号进行区分

配置是从TiDB-Ansible 导入的,没有手动修改。不知道为什么会存在冲突。

改成在 global 里面配置 deploy_dir data_dir后,根据提示 reload 的时候报错了,

tiup-cluster-debug-2020-05-08-08-14-49.log (50.8 KB)
inventory.ini (1.9 KB)

  1. 导入的集群不能去掉 imported:true ,因为ansible里面部署出来时共享目录的,去掉之后如果组件之间的路径写的是绝对路径会有冲突,所以这个是 edit-config 后保存是报错的原因

麻烦将配置文件恢复成最初导入后的情况,然后 reload 一下配置文件

  1. 关于监控没有显示 TiDB、PD、TiKV 信息的问题,可以访问一下 {prometheus_ip}:{port 默认是 9090}
    查看下 监控中 target 中组件 statte 是否都为 up 状态

9090端口 targets 有好多个 状态是 DOWN 的

可以检查一下 10.10.5.29 和 10.10.5.30 上 blackbox_exporter 进程是否存在:ps -ef | grep blackbox

另外可以检查一下服务器之间网络连接是否正常,端口访问是否正常,有没有防火墙之类的

执行了下 ps -ef | grep blackbox ,没有这个进程

执行了下 systemctl status blackbox_exporter-9115.service,发现是inactive状态, systemctl status node_exporter-9100.service 也是 inactive 状态。
手动启动这两个服务后,已经能正常监控到了。
不知道为什么这两个服务没起来,tiup cluster display tidb-cluster 也看不出来。
不知道还有没有其他的异常。

之前有做过哪些操作?服务器有重启过吗? 服务器重启过的话, systemd 的服务不会自动启动的

另外通过 tiup 执行 start 或者 restart 的时候有没有遇到什么报错?

服务器没重启过,从 3.1.0 升级到 3.1.1的过程中,我自己的电脑有点问题,重启了,但是服务器没重启。
不知道跟这个有没有关系。

自己电脑重启是指 tiup cluster upgrade 执行的过程中重启了,与服务器的会话断开了? 如果是的话,那可能会有关系,导致服务没有启动

可以看看正常升级能否复现这个问题,可以复现的话,希望可以继续反馈一下

是的,与服务器的会话断了。
好像是显卡驱动的问题,屏幕没法正常显示了,只好重启了。
我再试试,看能不能复现。

嗯嗯,好的

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。