从5.3.1 升级只6.5.3 报failed to stop: XXXXX node_exporter-9100.service

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】
【附件:截图/日志/监控】
升级最后一步遇到 报错:
2023-08-04T17:36:37.770+0800 DEBUG TaskFinish {“task”: “UpgradeCluster”, “error”: “failed to stop: node_exporter-9100.service, please check the instance’s log() for more detail.: timed out waiting for port 9100 to be stopped after 2m0s”, “errorVerbose”: “timed out waiting for port 9100 to be stopped after 2m0s\ngithub.com/pingcap/tiup/pkg/cluster/module.(*WaitFor).Execute\n\tgithub.com/pingcap/tiup/pkg/cluster/module/wait_for.go:91\ngithub.com/pingcap/tiup/pkg/cluster/spec.PortStopped\n\tgithub.com/pingcap/tiup/pkg/cluster/spec/instance.go:130\ngithub.com/pingcap/tiup/pkg/cluster/operation.systemctlMonitor.func1\n\tgithub.com/pingcap/tiup/pkg/cluster/operation/action.go:338\ngolang.org/x/sync/errgroup.(*Group).Go.func1\n\tgolang.org/x/sync@v0.0.0-20220819030929-7fc1605a5dde/errgroup/errgroup.go:75\nruntime.goexit\n\truntime/asm_amd64.s:1594\nfailed to stop: 10.200.45.134 node_exporter-9100.service, please check the instance’s log() for more detail.”}

看下和这个问题一样吗?
升级5.3.4升级到6.0碰到的node_export启动不了的问题。 - :ringer_planet: TiDB 技术问题 - TiDB 的问答社区 (asktug.com)

手动去节点停止export 然后再升级
service node_exporter-9100 stop

手动停止所有的node exporter 吗?

我这个报错是无法停止,node exporter 进程都还在:
fdc 23911 1 2 17:34 ? 00:00:02 bin/node_exporter --web.listen-address=:9100 --collector.tcpstat --collector.systemd --collector.mountstats --collector.meminfo_numa --collector.interrupts --collector.buddyinfo --collector.vmstat.fields=^.* --log.level=info
fdc 23918 23911 0 17:34 ? 00:00:00 /bin/bash /home/fdc/tidb/deploy_default/deploy/monitor-9100/scripts/run_node_exporter.sh
fdc 23920 23918 0 17:34 ? 00:00:00 tee -i -a /home/fdc/tidb/deploy_default/deploy/monitor-9100/log/node_exporter.log

报错是这个:timed out waiting for port 9100 to be stopped after 2m0s

那手工停了

手动停止了,但是继续执行tiup cluster replay gbwgtVF0CFs 完成升级的时候,就还是报错Error: failed to stop: node_exporter-9100.service,

是否残留的进程在运行呢。ps -ef | grep node_exporter 检查是否还有相关进程在运行

看了下确实没有

从大家的分析来看,确认只要node exporter 是停了,就可以是吧~?

node exporter可以单独部署的


tiup 也是使用 systemctl stop node_exporter-9100 命令停止。 您手动停止一下看看报什么错,看一下日志。
这个报错警告是 在执行命令后 spec.PortStopped 处检查到这个节点9100 端口还存在。用的是 ss 命令检查的。
https://github.com/pingcap/tiup/blob/0d229e9e06ac94a551c11fe47339e4f9ff928de6/pkg/cluster/operation/action.go#L338

1 个赞