tiup离线升级问题

【 TiDB 使用环境】生产环境
【 TiDB 版本】tidb v5.4.0 升级到 v5.4.3
升级到最后,stop node_exporter 报错,信息如下:

此问题使用tiup cluster replay audit_id无法继续,即使集群相关服务器node_exporter已经手动停止也会报错

【遇到的问题】
1.如何手动升级剩下步骤,剩下的步骤就是stop node_exporter,stop blackbox_exporter,start node_exporter,start blackbox_exporter
2. 目前阶段虽然bug已经修复,mysql客户端登录集群也显示5.4.3版本,但是tiup cluster display集群或者组件都是5.4.0
3.使用测试环境复现问题,发现只有重新升级才能解决问题,但是重启需要造成业务断连,所以想知道有什么办法不重启,还能解决这个问题,谢谢

【复现路径】做过哪些操作出现的问题
组件服务器手动部署其他node_exporter,然后执行升级操作,报错,然后手动关闭node_exporter,执行tiup cluster replay audit_id,还是报错

【问题现象及影响】
升级失败报错退出

目前影响除了显示问题,其他尚不清楚

【附件】

请提供各个组件的 version 信息,如 cdc/tikv,可通过执行 cdc version/tikv-server --version 获取。

你看看那个exporter的端口是不是还被占用着

没有,都关闭了

用lsof、netstat查过了?

netstat查过

测试集群试了,重新升级tiup cluster upgrade没问题,但是tiup cluster replay不行

audit的文件内容看下

请教下,有没有手动执行剩下步骤的命令

搜了一遍,关于升级问题的帖子不是很多,没找到关于升级原理的文章 :joy:

其他的监控组件可以scale-in后scale-out, 这2个exporter不行,可以手工替换下exporter的bin文件,然后修改下.tiup目录下的meta.yaml里的版本号就显示正常了

非常感谢,我试下

any update?

后续只修改了meta.yaml,其他没动,运行大概一周了,没影响

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。