使用TiUP从3.0.8升级至4.0.1后监控停止运行且重启失败

lfthwjx · 2020 年7 月 1 日 07:19

您好，我们在使用TiUP从v3.0.8升级至v4.0.1后出现了Grafana以及Prometheus的异常，具体情况如下：
在v3.0.8时，我们对PD进行了迁移，即将其迁移到新的servers上，老的servers停止使用，之后集群使用无异常，且运行数月时间无异常。最近刚刚使用TiUP升级了集群，升级后无异常，之后发现包括Grafana Prometheus全部down 尝试重启时报错，错误同https://asktug.com/t/topic/34362 完全相同，即在3个PD server中，其中两个没有node-exporter blackbox_exporter 尝试copy，但仍然无法重启node_exporter 导致整个集群无法重启。望得到帮助，十分感谢！

来了老弟 · 2020 年7 月 1 日 07:33

hi，

请提供下 tiup 和 tiup cluster 的版本。

请详细说明下确实监控的两个 pd 的 ip 和集群 display 结果。

请上传下 copy 的 node-exporter blackbox_exporter 看下里面的内容是否正确，主要是路径和权限问题。

手动启动 copy 的 service 的方式请提供下，这边推荐 systemd 和 sh scripts/run_node_exporter.sh 两种方式。

lfthwjx · 2020 年7 月 1 日 22:21

十分感谢！问题已经解决。copy之后还要确保文件权限一致，否则会出现此类错误。

来了老弟 · 2020 年7 月 2 日 02:03

好的，

system · 2022 年10 月 31 日 19:07

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。