tikv缩容操作,region_count先降,然后反增,怎么查看下线进度或异常

【TiDB 使用环境】生产环境
【TiDB 版本】v7.5.4
【问题复现路径】3tikv因空间不足,通过轮流扩缩容tikv节点服务器来增加物理硬盘。
【遇到的问题:问题现象及影响】store_id=4的tikv节点缩容,region_count 先下降一会,却又开始反增。怎么查看下线进度,或者异常




先缩容?空间够用吗?如果要群不换掉,先扩容3个,空间非常富足了再来缩容。缩容的时候先执行一下store weight store_id 0 0 把他的权重设置为0,让这个节点自己先吧leader和region转移走,等到等下了几十个几百个的时候在执行缩容操作。这就比较快了

1 个赞

下面这个可以参考下:
专栏 - TiKV缩容下线异常处理的三板斧 | TiDB 社区

leader_count 已经转移完了,现在就是停留在region_count 转移上面了。

其他tikv磁盘够嘛?要注意占用大于80%,pd就不轻易向这个tikv调度region了。

理论上,leader迁移完了,剩下的region都是peer,直接下线起码是不会丢数据的。但是如果其他磁盘空间>80%,会影响补副本。有可能的话,先扩容,再缩容。

比如你开一个更大空间的tikv,先把每个磁盘的占用率降下去,再轮流驱逐leader,重启tikv增加硬盘,都不用缩容也是可以的。

pd监控面板里有个balance进度监控项

另外2个tikv节点的空间占用 都达到了 84% 和 85% 可用空间 550G 左右。 会不会这个原因导致的?

1 个赞

应该是的。默认情况下,kv节点磁盘超过80%调度pd就不工作了

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。