tiup升级tidb从5.4到6.1.2提示node_exporter无法stop

Bug 反馈
清晰准确地描述您发现的问题,提供任何可能复现问题的步骤有助于研发同学及时处理问题
【 TiDB 版本】
tidb 5.4 tiup 1.11.1
【 Bug 的影响】
升级工作无法进行最终成功,尝试过关闭所有节点的node_exporter 仍然无法成功。

【可能的问题复现步骤】

【看到的非预期行为】
node_exporter stop失败
【期望看到的行为】

【相关组件及具体版本】

【其他背景信息或者截图】

Upgrading component pd
Upgrading component tikv
Upgrading component tidb
Upgrading component prometheus
Upgrading component grafana
Upgrading component alertmanager
Stopping component node_exporter
	Stopping instance 10.131.172.97
	Stopping instance 10.131.188.16
	Stopping instance 10.131.184.12
	Stopping instance 10.131.176.240
	Stopping instance 10.131.184.2
	Stopping instance 10.131.172.76
	Stopping instance 10.131.177.171
	Stopping instance 10.131.177.177
	Stopping instance 10.131.184.11
	Stopping instance 10.131.188.12
	Stopping instance 10.131.177.92
	Stop 10.131.172.97 success
	Stop 10.131.184.12 success
	Stop 10.131.184.11 success
	Stop 10.131.188.12 success








Error: failed to stop: 10.131.177.177 node_exporter-9100.service, please check the instance's log() for more detail.: timed out waiting for port 9100 to be stopped after 2m0s

Verbose debug logs has been written to /home/tidb/.tiup/logs/tiup-cluster-debug-2022-11-29-15-50-56.log.

通过日志定位源码的位置 tiup源码位置一直报错




你看下有几个node_exporter进程、相应端口占用

一步步的排查本来有两个,后来将root的关了,然后将tidb用户的node_exporter也关闭了
tiup cluster exec cvs_db --sudo --command “systemctl stop node_exporter-9100”
tiup cluster exec cvs_db --sudo --command “systemctl stop node_exporter”

大佬 black_exporter做啥的,这个要kill掉吗

主要监控网络ping 延迟的,he node_exporter不冲突 ,你看下root下的那些node_exporter的启动脚本是不是和 tidb的有冲突

root的已经关闭了,确定过好几次了

不是关的事,是在调用时比如某些路径,导致执行了root的东西,类似于这样的

如有有日志可以看到就很好定位了

大佬,有什么排查思路吗

ls -l /etc/systemd/system/ |grep exporter 看下

都关了

关闭blackbox_exporter 对服务有影响吗?要不我也关了吧

没影响,你现在升级是在哪步失败了, 看下ecporter-9100.service里的相关路径是否对。lsof -i:端口 看看是不是还有exporter的信息


没有exporter信息了,路径是对的。tikv tidb pd都成功了,最后监控的一些组件重启,卡在 node_exporter的重启了

node_exporter重启成功了,tiup里面cluster的信息也会变更 ,应该就没有问题了。

现在是好了?

并没有,还是这个node_exporter的问题。但是tidb目前还是可以用的

或者我是不是可以直接把tiup里面的meta文件里面把版本改了算了