TIKV region副本恢复速度异常

residentevil · 2024 年9 月 8 日 03:25

【 TiDB 使用环境】测试
【 TiDB 版本】V7.5.2
【复现路径】模拟tikv单个实例故障，待TIKV实例变成down状态后，重新scale-out一个新tikv实例发现region恢复速度比较慢，此时看pd的配置无异常【limit配置，store limit 是180】
【遇到的问题：通过再次调整store limit 为160后，region恢复速度就升高了
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件：截图/日志/监控】

store limit 180：
e8ce8944d4371569f46c50ba53dbed6c

store limit 160后：
4e6111da4c395212f5a052630066a3ba

FutureDB · 2024 年9 月 8 日 08:11

你两张截图的一个是remove，一个是prepare，两者并不一致；正常来说，你可以通过调整pd参数，加快balance的速度。可以参考下里面的调整pd参数加快balance速度的章节：专栏 - 生产环境TiDB集群缩容TiKV操作步骤 | TiDB 社区

TiDBer_xTvoCh2f · 2024 年9 月 8 日 11:26

kv节点是不是到瓶颈了，180的时候

懒云一笑 · 2024 年9 月 9 日 05:32

有这个可能性的

residentevil · 2024 年9 月 11 日 04:00

tikv不会到瓶颈的，cpu, io, mem，网卡都很闲

residentevil · 2024 年9 月 11 日 04:01

图截的不准确，哈哈，事实是都是preparing

Lucien-卢西恩 · 2024 年9 月 12 日 02:24

看监控截图，感觉网络带宽最大可以到 100MB，是不是千兆网络？

residentevil · 2024 年9 月 12 日 04:07

万兆网络

懒云一笑 · 2024 年9 月 12 日 05:59

residentevil · 2024 年9 月 13 日 05:45

问题定位了，与操作顺序有关系

kevinsna · 2024 年9 月 14 日 02:31

能否具体说说，贴下比较详细的步骤如何造成这个问题的？

Soysauce520 · 2024 年9 月 14 日 03:48

看下 Operator，调度任务都是哪些，有多少

cchouqiang · 2024 年9 月 22 日 15:22

新扩容的tikv的store limit还是默认的15，需要在设置一下新扩容的store limit

residentevil · 2024 年9 月 24 日 02:03

验证过了，确实需要调整store limit all xx的限制才能加速恢复的速度

system · 2024 年10 月 1 日 02:03

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。