heming
(何明)
1
Bug 反馈
清晰准确地描述您发现的问题,提供任何可能复现问题的步骤有助于研发同学及时处理问题
【 TiDB 版本】
tidb 5.4.2
【 Bug 的影响】
集群崩溃 , 用户无法登录 。
【可能的问题复现步骤】
【看到的非预期行为】
SELECT * FROM INFORMATION_SCHEMA.TABLES limit 3 ; ERROR 9005 (HY000): Region is unavailable
【期望看到的行为】
【相关组件及具体版本】
所有组件 5.4.2
【其他背景信息或者截图】
如集群拓扑,系统和内核版本,应用 app 信息等;如果问题跟 SQL 有关,请提供 SQL 语句和相关表的 Schema 信息;如果节点日志存在关键报错,请提供相关节点的日志内容或文件;如果一些业务敏感信息不便提供,请留下联系方式,我们与您私下沟通。
今天早上 6:57分上游ticdc报错 ,提示 下游找不到表 。我命令行登录下游(当前崩溃集群) show create table 是正常的 。 10点多 开发反馈测试应用登录不上。发现INFORMATION_SCHEMA.TABLES 不可用了 。
heming
(何明)
3
我们的环境 不是 tiup 部署的 ,clinic 有编译好的对应版本下载地址吗?
可以根据官网的极少,确认一下对应的 region 的状态以及对应的 TiKV 实例的状态是怎么样的。
Error Number: 9005
完整的报错信息为 ERROR 9005 (HY000) : Region is unavailable。
访问的 Region 不可用,某个 Raft Group 不可用,如副本数目不足,出现在 TiKV 比较繁忙或者是 TiKV 节点停机的时候,请检查 TiKV Server 状态/监控/日志。
heming
(何明)
8
嗯 ,准备升级一下看看 ,不知道会不会比现在更奔溃 。万幸这是下游集群 。
另外还有两个生产集群 还是 5.4.2 正在协调 紧急升级 ,避免 再次出现类似问题 。
heming
(何明)
9
升级tikv之前 需要做 evict-leader的操作 ,这个操作特别慢 , 如果用 pd-ctl -u pd:2379 store_id weight 0 x 这种方式 leader就下的特别快 。为什么不推荐 weight 0 这种方式 ?
heming
(何明)
10
pd都升到5.4.3之后 集群恢复了 , 目前只有一个tikv是5.4.3的其他都是5.4.2 evict-leader 太慢了 。
system
(system)
关闭
12
此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。