TIKV实例扩容&缩容速度慢问题

residentevil · 2024 年8 月 28 日 01:57

【 TiDB 使用环境】测试
【 TiDB 版本】v7.5.2
【复现路径】为tidb集群【40个tikv实例】缩容tikv实例【目标下掉一台机器，总计4个tikv实例】，发现速度非常慢
【遇到的问题：问题现象及影响】每个tikv实例1.5tb，一台机器总计4个实例，缩容耗时需要1天半的时间，调整如下参数没有效果：
schedule.leader-schedule-limit = 4【默认】----> 【改到16】
schedule.region-schedule-limit = 2048【默认】 ----> 【改到16384】
schedule.replica-schedule-limit = 64【默认】----> 【改到256】

pd, tikv的CPU利用率，内存利用率，网络带宽，磁盘util等正常，怀疑如上这些参数是否没生效导致，或者是否还有其他的参数影响了提升扩缩容的

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件：截图/日志/监控】
e8ce8944d4371569f46c50ba53dbed6c

啦啦啦啦啦 · 2024 年8 月 28 日 02:02

store limit也调整下看看

residentevil · 2024 年8 月 28 日 02:14

如何操作呢？大神指导一下

小龙虾爱大龙虾 · 2024 年8 月 28 日 02:49

https://docs.pingcap.com/zh/tidb/v8.3/configure-store-limit#设置全部-store-的-limit

residentevil · 2024 年8 月 28 日 02:58

可以通过SQL 命令行修改这两个参数么

像风一样的男子 · 2024 年8 月 28 日 03:14

登录pd-ctl
./pd-ctl -i -u http://0.0.0.0:2379

config show
config set leader-schedule-limit 64
config set replica-schedule-limit 80
store limit // 显示所有 store 添加和删除 peer 的速度上限
store limit all 5 // 设置所有 store 添加和删除 peer 的速度上限为每分钟 5 个
store limit 1 5 // 设置 store 1 添加和删除 peer 的速度上限为每分钟 5 个

residentevil · 2024 年8 月 28 日 04:05

问题解决了，但是又来了一个新问题，因为是模拟这台机器A故障了【直接停机】，机器上面的4个tikv实例状态现在是down的状态，现在我要补一台tikv机器B机器scale-out进去，但是报错了【报连接A机器失败】，这种情况如何处理呢

像风一样的男子 · 2024 年8 月 28 日 05:59

一共多少服务器每个服务器上多少kv? 每个服务器打标签没？

residentevil · 2024 年8 月 28 日 06:55

问题解决了，感谢了

system · 2024 年10 月 27 日 06:56

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。