tidb5.4.2集群崩溃 SELECT * FROM INFORMATION_SCHEMA.TABLES limit 3 ; ERROR 9005 (HY000): Region is unavailable

Bug 反馈
清晰准确地描述您发现的问题,提供任何可能复现问题的步骤有助于研发同学及时处理问题
【 TiDB 版本】
tidb 5.4.2
【 Bug 的影响】
集群崩溃 , 用户无法登录 。
【可能的问题复现步骤】

【看到的非预期行为】
SELECT * FROM INFORMATION_SCHEMA.TABLES limit 3 ; ERROR 9005 (HY000): Region is unavailable
【期望看到的行为】

【相关组件及具体版本】
所有组件 5.4.2
【其他背景信息或者截图】
如集群拓扑,系统和内核版本,应用 app 信息等;如果问题跟 SQL 有关,请提供 SQL 语句和相关表的 Schema 信息;如果节点日志存在关键报错,请提供相关节点的日志内容或文件;如果一些业务敏感信息不便提供,请留下联系方式,我们与您私下沟通。
今天早上 6:57分上游ticdc报错 ,提示 下游找不到表 。我命令行登录下游(当前崩溃集群) show create table 是正常的 。 10点多 开发反馈测试应用登录不上。发现INFORMATION_SCHEMA.TABLES 不可用了 。

检查集群状态
clinc 发一下。

我们的环境 不是 tiup 部署的 ,clinic 有编译好的对应版本下载地址吗?

可以根据官网的极少,确认一下对应的 region 的状态以及对应的 TiKV 实例的状态是怎么样的。

Error Number: 9005

完整的报错信息为 ERROR 9005 (HY000) : Region is unavailable。

访问的 Region 不可用,某个 Raft Group 不可用,如副本数目不足,出现在 TiKV 比较繁忙或者是 TiKV 节点停机的时候,请检查 TiKV Server 状态/监控/日志。

可以部署诊断工作套件

凌晨有报 pd错误

可能是5.4.2 这个bug问题 。

可以升级处理一下~

嗯 ,准备升级一下看看 ,不知道会不会比现在更奔溃 。万幸这是下游集群 。
另外还有两个生产集群 还是 5.4.2 正在协调 紧急升级 ,避免 再次出现类似问题 。

升级tikv之前 需要做 evict-leader的操作 ,这个操作特别慢 , 如果用 pd-ctl -u pd:2379 store_id weight 0 x 这种方式 leader就下的特别快 。为什么不推荐 weight 0 这种方式 ?

pd都升到5.4.3之后 集群恢复了 , 目前只有一个tikv是5.4.3的其他都是5.4.2 evict-leader 太慢了 。


业务上不需要等待的话,可以强制升级

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。