tidb收缩1个服务器1.4T数据需要多久完成

下个月中旬开始做

哦那我这个图 当前生产这个节点没有leader吧?只有副本region对吧。
如果缩容,节点对应的leader和region都会一直降低 看这个时间对吧?缩容的时候我去观察看看。如果有点慢再去调整store limit

是的,是这个意思

我刚加了个节点,正在调整速度,这个可以在不影响系统的基础上适当的慢慢加

1 个赞

你这个是默认是50 其中一个itkv的id单独调整为200吗?

对的,新增的节点适当调大了点
不急就等他慢慢迁移,如果你很急就等业务低谷大半夜的时候一下子全部调大,迁移完调回来。

1 个赞

扩容和缩容节点快不了的,我这半小时才迁移了4k个region

1 个赞

一定等region变成tombstone才可以删除。否则就丢副本,然后期间再故障一台机器就不能正确提供服务了。

不会吧,我30台tikv呢。。我理解的是随便挂掉两三台 不会有问题。 :smile:

你是阿里云SSD服务器吗??你这是对应的那个节点调整为200, 半小时 4kregion?吗?如果没调整岂不是更慢?

你有按机架分组码?如果没有,按host调度的话,任意挂两台都会导致一些region的双副本丢失,就没法提服务了。

是整个tidb不能提供服务还是 挂掉的2台对应的region不能查询??

你保证同一时间只有一个TiKV在下线就行

如果挂掉的2台对应的region只是普通的表,那就是这些region不能访问,如果这个region是meta信息,那tidb-server超过租期后获取不到meta信息,就整个集群不能访问了。
30多台机器还是建议分个组,按错误域调度。阿里应该有这种参数。

1 个赞

好吧,我还以为我有30个,我可以随便挂呢 :joy: 你说的分组是 阿里云上面控制台的分组还是pd里面对tikv分组?

store limit 200 意思是每分钟迁移上限是200,你按照这个算下速度呗

1 个赞

对tikv分组。告诉tikv(0-9)是一组,tikv(10-19)是一组,tikv(20-29)是一组,这样的话,组内只有1副本,组内随便挂几台都没问题,只要有2个组完整的运行,就不影响。

组可以从阿里看看有没有错误域之类的信息,把多台机器按错误域分组。比如说:同一个交换机,同一套电源,这就是一个错误域。

1 个赞

哦哦。这就是两个方案吧,1个就是 tikv的几个ip 分组,这样之后可以不管,也可以再继续去阿里上面吧对应分组机器划分一下不同域。了解了。谢谢

能找到阿里的机架信息就按机架信息分组,这样更安全。找不到就自己逻辑上分组就行了。不分组混着来只能挂2个。

也就是说其实不分组的话只能看运气了。如果挂两个,就看这两个里面有没有某个region的2个副本 如果没有 没影响,如过有,对应region 无法访问是吧?