集群是从4.0.0升级至4.0.4
现调整了告警阈值,修改performance_read.json,performance_write.json,使用
tiup cluster restart dw-cluster -N 172.16.11.10:9093,172.16.11.10:3000,172.16.11.10:9090
重启失败了,尝试再次重启,仍然失败
集群是从4.0.0升级至4.0.4
现调整了告警阈值,修改performance_read.json,performance_write.json,使用
tiup cluster restart dw-cluster -N 172.16.11.10:9093,172.16.11.10:3000,172.16.11.10:9090
重启失败了,尝试再次重启,仍然失败
尝试手动启动 node_exporter
./start_node_exporter.sh
执行结束,没有报错,服务也没有启动,检查 log/node_exporter.log 无日志输出
辛苦检查下端口是否有占用,其次查看 start_node_exporter.sh 脚本内容,直接执行脚本的内容看下结果输出。
端口没有被占用
脚本 start_node_exporter.sh内容如下:
#!/bin/bash
set -e
# WARNING: This file was auto-generated. Do not edit!
# All your edit might be overwritten!
sudo systemctl start node_exporter-9100.service
直接执行sudo systemctl start node_exporter-9100.service,无输出,无报错,但是node_exporter没有启动成功
现在我临时使用 run_node_exporter.sh 这个脚本启动,暂时监控恢复了
但是为什么使用tiup cluster restart 方式就启动不了
上面解答的有些问题哈,是应该用 run_node_exporter.sh 这个脚本来启动。
start_node_exporter.sh 这个脚本有问题吗?
脚本是自动生成的,不会有问题,可能是启动方式的区别,检查下SELinux 状态: /usr/sbin/sestatus -v ,开启的话关掉再试下用 start_node_exporter.sh 来启动。
selinux是关闭的
这台机器是中控机,监控就部署在中控机上面,之前的3.0.11及4.0.0两个版本跑的都正常,也修改过阈值重启,没有出现过起不来的情况
现在是升级至4.0.4,才出现这样的现象
这个问题我们在看下,现在监控正常了吧?
使用 run_node_exporter.sh 这个脚本启动,目前是正常的
脚本 start_node_exporter.sh 是通过 systemctl 启动 node_exporter 的 service,service 文件也会调用 run_node_exporter.sh 来启动服务,两者应该没有区别。
可以再检查下 /var/log/message 日志中当时有没有相关报错,以及使用 start_node_exporter.sh 脚本启动时 systemctl status node_exporter-9100.service 有没有报错。