【急】数据库版本升级导致集群灾难性破坏,求指导恢复

【TiDB 使用环境】生产环境
【TiDB 版本】v7.5.1 升级到 v8.4.0
【操作系统】centos
【部署方式】云上部署(私有云)
【集群数据量】1
【集群节点数】13
【问题复现路径】tiup cluster upgrade v8.4.0 --force
【遇到的问题:问题现象及影响】 PD、TiDB集群均不可用,且无法重启
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【复制黏贴 ERROR 报错的日志】

【其他附件:截图/日志/监控】

先看看pd日志,另外你pd就一个节点?

另外为啥升级到v8.4.0这种测试版本?

缩容了,看资料让用pd recover,把pd从三个缩到1个了。但是恢复也失败了,提示:

dial tcp 10.0.1.13:2379: connect: connection refused

参考: PD Recover 使用文档 | TiDB 文档中心

PD日志如图

这一步做了哪些操作?执行了哪些命令?

日志里面的36和37两个ip是你缩容掉的pd?缩容前是啥问题,pd启动正常吗

36、37是Tidb-server,缩容前就全是down的状态,启动不起来。
原因是升级指令加了–force ,而且过程中网络中断了

参考那个pd-recover 的手册,就是按照那个手册执行的

当时为什么要加这个?

centos 7 吗?

你升级到 8.5.1

有两个版本不支持 centos7 一个是 8.4.0 和8.5.0

3 个赞

表妹一针见血啊。仔细查看了恢复时的异常日志和官方文档,确实是系统版本的问题。

升级到 8.5.1,还是提示:bin/pd-server: /lib64/libc.so.6: version `GLIBC_2.28’ not found (required by bin/pd-server)

清除 PD 数据,重新部署

楼主的问题我们自己都遇到过:

  1. 版本的问题,需要手工回滚程序文件
  2. PD单节点无法启动,仍然提示与之前配置的其他节点连接的情况,需要手工修改 PD节点 的配置文件和启动脚本,确保里面都没有其他PD节点的信息

只能重新部署了

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。