tiup升级集群

海水孤独 · 2024 年9 月 11 日 12:26

【 TiDB 使用环境】测试环境
【 TiDB 版本】tidb7.5.2升级到7.5.3
【复现路径】做过哪些操作出现的问题
【遇到的问题：问题现象及影响】
Upgrading component pd
Restarting instance 172.31.111.124:2379
Restart instance 172.31.111.124:2379 success
Restarting instance 172.31.111.125:2379
Restart instance 172.31.111.125:2379 success
Restarting instance 172.31.111.126:2379
Restart instance 172.31.111.126:2379 success
Upgrading component tikv
Error: failed to get leader count 172.31.111.126: metric tikv_raftstore_region_count{type=“leader”} not found

TiDBer_jYQINSnf · 2024 年9 月 11 日 12:56

tiup 不熟，这个错误是 tiup升级tikv的时候，要获取tikv上还有没有leader，为了平滑升级。
你完全可以通过 pd-ctl store 看看。
手动操作的逻辑是：
scheduler add evict_leader_scheduler xxx (要升级的tikv)
然后 tikv重启替换新版。然后再执行 scheduler remove evict_leader_scheduler
然后再执行下一个。

你看看对你有没有帮助吧。tiup命令我是不清楚。

TiDBer_xTvoCh2f · 2024 年9 月 11 日 14:37

prometheus有问题了吗？

TiDBer_xTvoCh2f · 2024 年9 月 11 日 14:50

监控的node运行正常吗

xiaohaozifeifeifei · 2024 年9 月 12 日 02:07

你这是获取kv的leader报错，所有应用和链接都断开了么？

有猫万事足 · 2024 年9 月 12 日 02:13

这个回复对这个报错的原因解释的比较清楚

zhanggame1 · 2024 年9 月 12 日 03:32

集群现在什么状态，display下看看

TiDBer_20231229 · 2024 年9 月 13 日 02:07

看一下这个机器172.31.111.126上的KV状态，如果状态没问题再看下TiKV的日志

kevinsna · 2024 年9 月 16 日 02:42

有没有可能是TiKV 实例正在重启，导致某些监控指标暂时无法收集？

哈喽沃德 · 2024 年9 月 18 日 00:28

学习了

system · 2024 年9 月 25 日 00:28

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。