ERROR 9005 (HY000): Region is unavailable

集群拓扑


现在测试三节点集群,手动下线一台子节点后(关闭服务器),数据库无法使用;
报错 ERROR 9005 (HY000): Region is unavailable
为什么掉一个节点无法实现高可用

看到 pd 和 tikv 是混合部署的,关闭服务器导致的不仅仅是 TIKV 下线,所以可能会遇到以上报错,比如下线的是 pd 的 leader ,且上面有 tikv 或者上面有 tikv 的 region leader 。需要恢复时间的 。

  1. 配置的副本数是否为 3 ?

  2. PD leader 是否挂掉了?

这两项如果没达成,就会出现以上的错误…


建议还是单实例部署,方便测试可用性
如果只是体验,目前的混合部署可以的

您好:是一直不可用呢?还是短时间内不可用??

副本是默认的3

leader没有挂掉


一直不可用,这个是region的分布

下线的不是leader,那遇到这个错误是需要等待tikv自己同步之后,就可以恢复吗

为什么tiup里 是192网段,tikv_store_status里是10网段的, 一直报Region is unavailable 肯定是有region多数副本失败的情况,都做哪些操作了

没有,两个截图不是同一个集群,但是都做了相同测试,以及发生了相同的情况

找个小点的表 会报这个错的 ,show table xxx regions 找到region_id 然后pd-ctl region xxx 看下输出。 就以10网段这个为例吧

看来就在掉线那台上 那这种情况会自动恢复吗

这咋就1个副本呢 调整过副本数? pd-ctl config show 看看 max-replicas应该>=3 , grafana overview监控也看看tikv 下 leader region的监控

看起来还是环境问题… 还是要看看做了些什么操作导致的
image

找到问题了,我副本数改成了1了,改成3就不会有这个问题了吧

得看你的数据是不是丢了,没丢把tikv起来 改3副本后会自动补充均衡,丢了的话就重新搞吧

好的,谢谢

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。