【 TiDB 使用环境】 测试
【 TiDB 版本】v7.5.2
【复现路径】 集群规模:9台服务器,每3台一个az,每台机器4个tikv
【遇到的问题:问题现象及影响】手动shutdown now 三台服务器【模拟挂一个az,raft少一个副本】,然后想通过在补3台新的服务器scale-out到集群,通过tiup scale-out 发现报错了,报连接三台故障服务器失败,想问下这个会对新增加的3台机器数据恢复有影响么?
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】
副本数和 AZ,以及tikv 实例是什么关系呢?
只要加进去对数据恢复无影响,你可以用 pd-ctl store
命令看下加进去了吗
你连接3台被shutdown的服务器的报错,不会影响你的数据恢复的应该
删除下线节点
tikv的labels、pd的placement-rules、以及机器的az,检查对应关系是否匹配
1, 3台服务器同时挂掉,确定是只有一个副本吗?
2. 正常来说 你如果这3台服务器全部都确定是1个副本而且全部挂掉,他要恢复这个副本,他应该恢复到哪一个服务器上呢?
我记得是30分钟内如果恢复不了服务器。才开始重新复制副本,把掉线的3台服务器自动抛弃掉
3
配置了placement-rules,肯定是raft中的一个副本,就是想模拟三az挂一个az的场景
类似于 普通的3台kv 挂一台的场景把,这个 3个挂了之后。看granfana监控。其他服务器的region有没有增加。扩容 报错 提示3台服务器失败,kv有没有增加上去?如果没有。那你试试先收到那个吧挂掉的3台缩容或者直接下线。然后再扩容。
或者 等半小时30分钟自后,在扩容试试
因为raft缺少一个副本了,此时只有2个副本了,所以得先添加第三个副本后在剔除故障副本吧
- 报错内容发一下
- tikv的labels、pd的placement-rules、以及机器的az,检查对应关系是否匹配
这个问题解决了吗?报错内容发一下
看了下报错是连接异常的三台机器error了,其实没影响
每个az下的tikv label如何设置的? scale-out时报的杀错,得贴下啊
1 个赞