TIKV实例扩容&缩容速度慢问题

【 TiDB 使用环境】测试
【 TiDB 版本】v7.5.2
【复现路径】为tidb集群【40个tikv实例】缩容tikv实例【目标下掉一台机器,总计4个tikv实例】,发现速度非常慢
【遇到的问题:问题现象及影响】 每个tikv实例1.5tb,一台机器总计4个实例,缩容耗时需要1天半的时间,调整如下参数没有效果:
schedule.leader-schedule-limit = 4【默认】----> 【改到16】
schedule.region-schedule-limit = 2048【默认】 ----> 【改到16384】
schedule.replica-schedule-limit = 64【默认】----> 【改到256】

pd, tikv的CPU利用率,内存利用率,网络带宽,磁盘util等正常,怀疑如上这些参数是否没生效导致,或者是否还有其他的参数影响了提升扩缩容的

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】
e8ce8944d4371569f46c50ba53dbed6c

store limit也调整下看看

2 个赞

如何操作呢? 大神指导一下

https://docs.pingcap.com/zh/tidb/v8.3/configure-store-limit#设置全部-store-的-limit

可以通过SQL 命令行修改这两个参数么

登录pd-ctl
./pd-ctl -i -u http://0.0.0.0:2379

config show
config set leader-schedule-limit 64
config set replica-schedule-limit 80
store limit // 显示所有 store 添加和删除 peer 的速度上限
store limit all 5 // 设置所有 store 添加和删除 peer 的速度上限为每分钟 5 个
store limit 1 5 // 设置 store 1 添加和删除 peer 的速度上限为每分钟 5 个

问题解决了,但是又来了一个新问题,因为是模拟这台机器A故障了【直接停机】,机器上面的4个tikv实例状态现在是down的状态,现在我要补一台tikv机器B机器scale-out进去,但是报错了【报连接A机器失败】,这种情况如何处理呢

一共多少服务器每个服务器上多少kv? 每个服务器打标签没?

问题解决了,感谢了

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。