集群拓扑
现在测试三节点集群,手动下线一台子节点后(关闭服务器),数据库无法使用;
报错 ERROR 9005 (HY000): Region is unavailable
为什么掉一个节点无法实现高可用
集群拓扑
看到 pd 和 tikv 是混合部署的,关闭服务器导致的不仅仅是 TIKV 下线,所以可能会遇到以上报错,比如下线的是 pd 的 leader ,且上面有 tikv 或者上面有 tikv 的 region leader 。需要恢复时间的 。
配置的副本数是否为 3 ?
PD leader 是否挂掉了?
这两项如果没达成,就会出现以上的错误…
建议还是单实例部署,方便测试可用性
如果只是体验,目前的混合部署可以的
您好:是一直不可用呢?还是短时间内不可用??
副本是默认的3
leader没有挂掉
下线的不是leader,那遇到这个错误是需要等待tikv自己同步之后,就可以恢复吗
为什么tiup里 是192网段,tikv_store_status里是10网段的, 一直报Region is unavailable 肯定是有region多数副本失败的情况,都做哪些操作了
没有,两个截图不是同一个集群,但是都做了相同测试,以及发生了相同的情况
找个小点的表 会报这个错的 ,show table xxx regions 找到region_id 然后pd-ctl region xxx 看下输出。 就以10网段这个为例吧
这咋就1个副本呢 调整过副本数? pd-ctl config show 看看 max-replicas应该>=3 , grafana overview监控也看看tikv 下 leader region的监控
看起来还是环境问题… 还是要看看做了些什么操作导致的
找到问题了,我副本数改成了1了,改成3就不会有这个问题了吧
得看你的数据是不是丢了,没丢把tikv起来 改3副本后会自动补充均衡,丢了的话就重新搞吧
好的,谢谢
此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。