使用TiUP从3.0.8升级至4.0.1后监控停止运行且重启失败

您好,我们在使用TiUP从v3.0.8升级至v4.0.1后出现了Grafana以及Prometheus的异常,具体情况如下:
在v3.0.8时,我们对PD进行了迁移,即将其迁移到新的servers上,老的servers停止使用,之后集群使用无异常,且运行数月时间无异常。最近刚刚使用TiUP升级了集群,升级后无异常,之后发现包括Grafana Prometheus全部down 尝试重启时报错,错误同https://asktug.com/t/topic/34362 完全相同,即在3个PD server中,其中两个没有node-exporter blackbox_exporter 尝试copy,但仍然无法重启node_exporter 导致整个集群无法重启。望得到帮助,十分感谢!

hi,

请提供下 tiup 和 tiup cluster 的版本。

请详细说明下确实监控的两个 pd 的 ip 和集群 display 结果。

请上传下 copy 的 node-exporter blackbox_exporter 看下里面的内容是否正确,主要是路径和权限问题。

手动启动 copy 的 service 的方式请提供下,这边推荐 systemd 和 sh scripts/run_node_exporter.sh 两种方式。

十分感谢!问题已经解决。copy之后还要确保文件权限一致,否则会出现此类错误。

好的,

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。