调整监控告警阈值后重启失败，监控已无法打开

hanson · 2020 年8 月 28 日 02:01

集群是从4.0.0升级至4.0.4

现调整了告警阈值，修改performance_read.json，performance_write.json，使用

tiup cluster restart dw-cluster -N 172.16.11.10:9093,172.16.11.10:3000,172.16.11.10:9090

重启失败了，尝试再次重启，仍然失败

hanson · 2020 年8 月 28 日 02:20

尝试手动启动 node_exporter

./start_node_exporter.sh

执行结束，没有报错，服务也没有启动，检查 log/node_exporter.log 无日志输出

不懂就问 · 2020 年8 月 28 日 03:07

辛苦检查下端口是否有占用，其次查看 start_node_exporter.sh 脚本内容，直接执行脚本的内容看下结果输出。

hanson · 2020 年8 月 28 日 03:20

端口没有被占用
脚本 start_node_exporter.sh内容如下：

#!/bin/bash
set -e

# WARNING: This file was auto-generated. Do not edit!
#          All your edit might be overwritten!
sudo systemctl start node_exporter-9100.service

直接执行sudo systemctl start node_exporter-9100.service，无输出，无报错，但是node_exporter没有启动成功

hanson · 2020 年8 月 28 日 03:21

现在我临时使用 run_node_exporter.sh 这个脚本启动，暂时监控恢复了

但是为什么使用tiup cluster restart 方式就启动不了

不懂就问 · 2020 年8 月 28 日 04:04

上面解答的有些问题哈，是应该用 run_node_exporter.sh 这个脚本来启动。

hanson · 2020 年8 月 28 日 05:46

start_node_exporter.sh 这个脚本有问题吗？

不懂就问 · 2020 年8 月 28 日 08:04

脚本是自动生成的，不会有问题，可能是启动方式的区别，检查下SELinux 状态： /usr/sbin/sestatus -v ，开启的话关掉再试下用 start_node_exporter.sh 来启动。

hanson · 2020 年8 月 28 日 08:48

selinux是关闭的
这台机器是中控机，监控就部署在中控机上面，之前的3.0.11及4.0.0两个版本跑的都正常，也修改过阈值重启，没有出现过起不来的情况
现在是升级至4.0.4,才出现这样的现象

不懂就问 · 2020 年8 月 28 日 09:46

这个问题我们在看下，现在监控正常了吧？

hanson · 2020 年8 月 28 日 10:48

使用 run_node_exporter.sh 这个脚本启动，目前是正常的

qizheng · 2020 年8 月 28 日 12:49

脚本 start_node_exporter.sh 是通过 systemctl 启动 node_exporter 的 service，service 文件也会调用 run_node_exporter.sh 来启动服务，两者应该没有区别。

可以再检查下 /var/log/message 日志中当时有没有相关报错，以及使用 start_node_exporter.sh 脚本启动时 systemctl status node_exporter-9100.service 有没有报错。