【急】数据库版本升级导致集群灾难性破坏，求指导恢复

TiDBer_ghmAXF3x · 2025 年4 月 2 日 09:03

【TiDB 使用环境】生产环境
【TiDB 版本】v7.5.1 升级到 v8.4.0
【操作系统】centos
【部署方式】云上部署（私有云）
【集群数据量】1
【集群节点数】13
【问题复现路径】tiup cluster upgrade v8.4.0 --force
【遇到的问题：问题现象及影响】 PD、TiDB集群均不可用，且无法重启
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【复制黏贴 ERROR 报错的日志】

【其他附件：截图/日志/监控】

zhanggame1 · 2025 年4 月 2 日 09:11

先看看pd日志，另外你pd就一个节点？

zhanggame1 · 2025 年4 月 2 日 09:11

另外为啥升级到v8.4.0这种测试版本？

TiDBer_ghmAXF3x · 2025 年4 月 2 日 09:19

缩容了，看资料让用pd recover，把pd从三个缩到1个了。但是恢复也失败了，提示：

`dial tcp 10.0.1.13:2379: connect: connection refused`

参考： PD Recover 使用文档 | TiDB 文档中心

TiDBer_ghmAXF3x · 2025 年4 月 2 日 09:21

PD日志如图

Miracle · 2025 年4 月 2 日 09:24

这一步做了哪些操作？执行了哪些命令？

zhanggame1 · 2025 年4 月 2 日 09:29

日志里面的36和37两个ip是你缩容掉的pd？缩容前是啥问题，pd启动正常吗

TiDBer_ghmAXF3x · 2025 年4 月 2 日 09:31

36、37是Tidb-server，缩容前就全是down的状态，启动不起来。
原因是升级指令加了–force ，而且过程中网络中断了

TiDBer_ghmAXF3x · 2025 年4 月 2 日 09:32

参考那个pd-recover 的手册，就是按照那个手册执行的

Kongdom · 2025 年4 月 2 日 10:06

当时为什么要加这个？

Billmay表妹 · 2025 年4 月 2 日 11:02

centos 7 吗？

你升级到 8.5.1

有两个版本不支持 centos7 一个是 8.4.0 和8.5.0

TiDBer_ghmAXF3x · 2025 年4 月 2 日 11:18

表妹一针见血啊。仔细查看了恢复时的异常日志和官方文档，确实是系统版本的问题。

TiDBer_ghmAXF3x · 2025 年4 月 2 日 12:58

升级到 8.5.1，还是提示：bin/pd-server: /lib64/libc.so.6: version `GLIBC_2.28’ not found (required by bin/pd-server)

Billmay表妹 · 2025 年4 月 3 日 09:35

清除 PD 数据，重新部署

麻辣机师 · 2025 年4 月 7 日 01:14

楼主的问题我们自己都遇到过:

版本的问题，需要手工回滚程序文件
PD单节点无法启动，仍然提示与之前配置的其他节点连接的情况，需要手工修改 PD节点的配置文件和启动脚本，确保里面都没有其他PD节点的信息

Tidb_kk · 2025 年4 月 7 日 02:36

只能重新部署了

system · 2025 年4 月 14 日 02:36

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。