调整监控告警阈值后重启失败,监控已无法打开

集群是从4.0.0升级至4.0.4

现调整了告警阈值,修改performance_read.json,performance_write.json,使用

tiup cluster restart dw-cluster -N 172.16.11.10:9093,172.16.11.10:3000,172.16.11.10:9090

重启失败了,尝试再次重启,仍然失败

尝试手动启动 node_exporter

./start_node_exporter.sh

执行结束,没有报错,服务也没有启动,检查 log/node_exporter.log 无日志输出

辛苦检查下端口是否有占用,其次查看 start_node_exporter.sh 脚本内容,直接执行脚本的内容看下结果输出。

端口没有被占用
脚本 start_node_exporter.sh内容如下:

#!/bin/bash
set -e

# WARNING: This file was auto-generated. Do not edit!
#          All your edit might be overwritten!
sudo systemctl start node_exporter-9100.service

直接执行sudo systemctl start node_exporter-9100.service,无输出,无报错,但是node_exporter没有启动成功

现在我临时使用 run_node_exporter.sh 这个脚本启动,暂时监控恢复了

但是为什么使用tiup cluster restart 方式就启动不了

上面解答的有些问题哈,是应该用 run_node_exporter.sh 这个脚本来启动。

start_node_exporter.sh 这个脚本有问题吗?

脚本是自动生成的,不会有问题,可能是启动方式的区别,检查下SELinux 状态: /usr/sbin/sestatus -v ,开启的话关掉再试下用 start_node_exporter.sh 来启动。

selinux是关闭的
这台机器是中控机,监控就部署在中控机上面,之前的3.0.11及4.0.0两个版本跑的都正常,也修改过阈值重启,没有出现过起不来的情况
现在是升级至4.0.4,才出现这样的现象

这个问题我们在看下,现在监控正常了吧?

使用 run_node_exporter.sh 这个脚本启动,目前是正常的

脚本 start_node_exporter.sh 是通过 systemctl 启动 node_exporter 的 service,service 文件也会调用 run_node_exporter.sh 来启动服务,两者应该没有区别。

可以再检查下 /var/log/message 日志中当时有没有相关报错,以及使用 start_node_exporter.sh 脚本启动时 systemctl status node_exporter-9100.service 有没有报错。