tidb集群kv扩容,region迁移的进度有点慢,从昨天18点-今天09点,迁移进度显示83%,是否正常

【 TiDB 使用环境】生产环境
【 TiDB 版本】v7.5.4
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】对现有tidb集群进行3节点的tikv扩容到6节点tikv,保留3副本不变。扩容相关的命令执行一切正常。
1.图1:刚开始扩容时的状态:

2.图2:今天早上09点时的状态:

3.图3:gc配置:
34970d90131cb2a8c6d17ba90a801b0

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】

速度越来越慢,剩余时间显示越来越长:

看下pd监控的operator产生和消费正常吗。正常的话先试试调大调度参数 pd-ctl config set 调整 replica-schedule-limitmax-pending-peer-count 以及 max-snapshot-count 。 pd-ctl store limit all xx 增大store limt。

直接加了三个节点?我都是一个个加的,不着急的话还是慢慢等他迁移平衡,磁盘消耗过大容易影响集群稳定性

数据量不小,着急完成就改调度参数加快速度


这些监控指标,看上去,没有什么异常

我看最开始磁盘的读写速度是50M/s,现在变成了0.007M/s

当磁盘空间达到一定比例(例如 80% 或更高)时,PD 会优先考虑不向该节点迁移新的 Region,以避免空间耗尽的风险。这一行为是基于调度策略中 high-space-ratiolow-space-ratio 参数的设置:

  • high-space-ratio:当节点的磁盘使用超过这个比例时,PD 会减少向此节点调度 Region,以防止磁盘压力过大。默认值为 0.8(即 80%)。
  • low-space-ratio:当节点的磁盘使用率低于这个比例时,PD 会将此节点作为迁移的优先目标。默认值为 0.6(即 60%)。

会不会跟这个有关系,目前,新扩容的3个tikv节点磁盘空间,占用在60%不再增长了。


又有进度了,比之前多了0.01%

调整了这几个参数,后续我这边再观察一下,迁移的进度:

tiup ctl:v7.5.4 pd -u http://10.3.8.227:2379 config set max-pending-peer-count 1024
tiup ctl:v7.5.4 pd -u http://10.3.8.227:2379 config set max-snapshot-count 1024
tiup ctl:v7.5.4 pd -u http://10.3.8.227:2379 config set replica-schedule-limit 1024
tiup ctl:v7.5.4 pd -u http://10.3.8.227:2379 store limit all 100

有变快了一些吗?

还是不太明显,:

过30秒刷新一下,显示会有些不同。说明还是有进度,只是不快

试试把leader-schedule-limit 调到一个很小的值 比如1 ,减少这类调度和balacne region的争抢,但有可能会导致tikv cpu利用率不均衡


新增调整参数

tiup ctl:v7.5.4 pd -u http://10.3.8.227:2379 config set high-space-ratio 0.8
tiup ctl:v7.5.4 pd -u http://10.3.8.227:2379 config set low-space-ratio 0.90

调整这两个参数后,速率一下子就上来了。

。。这两个是磁盘百分比的,你这是之前的磁盘用的量太大了吧

你df看下磁盘空间是多少

最新的create和check监控图:


学习了,生产环境我是直接调到0.8和0.9了