【 TiDB 使用环境】测试
【 TiDB 版本】v7.5.2
【复现路径】为tidb集群【40个tikv实例】缩容tikv实例【目标下掉一台机器,总计4个tikv实例】,发现速度非常慢
【遇到的问题:问题现象及影响】 每个tikv实例1.5tb,一台机器总计4个实例,缩容耗时需要1天半的时间,调整如下参数没有效果:
schedule.leader-schedule-limit = 4【默认】----> 【改到16】
schedule.region-schedule-limit = 2048【默认】 ----> 【改到16384】
schedule.replica-schedule-limit = 64【默认】----> 【改到256】
pd, tikv的CPU利用率,内存利用率,网络带宽,磁盘util等正常,怀疑如上这些参数是否没生效导致,或者是否还有其他的参数影响了提升扩缩容的
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】
小龙虾爱大龙虾
(Minghao Ren)
2024 年8 月 28 日 02:49
4
登录pd-ctl
./pd-ctl -i -u http://0.0.0.0:2379
config show
config set leader-schedule-limit 64
config set replica-schedule-limit 80
store limit // 显示所有 store 添加和删除 peer 的速度上限
store limit all 5 // 设置所有 store 添加和删除 peer 的速度上限为每分钟 5 个
store limit 1 5 // 设置 store 1 添加和删除 peer 的速度上限为每分钟 5 个
问题解决了,但是又来了一个新问题,因为是模拟这台机器A故障了【直接停机】,机器上面的4个tikv实例状态现在是down的状态,现在我要补一台tikv机器B机器scale-out进去,但是报错了【报连接A机器失败】,这种情况如何处理呢
一共多少服务器每个服务器上多少kv? 每个服务器打标签没?
system
(system)
关闭
2024 年10 月 27 日 06:56
10
此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。