开启跨表合并后empty_region的数量仍然下降很慢

生产环境,集群版本V5.1.0
遇到一个问题,目前集群Region数很多,将近800W,PD监控中空region就将近160W
为了降低集群负载,考虑对region进行Merge,但开启跨表merge后,空region下降很慢,这是什么原因?





目前看调高相关参数后,undersize_region_count的一直在降,每小时将近降4W,但是empty_region_count降得很慢,每小时几十个,这个速度差别太大了,请帮忙分析下原因

看起来整体是在 merge 的 :thinking:,要不再等等。有个办法是将 merge size 和 keys 调小,让他优先 merge empty 的

生产环境,为了避免生产压力,还是不做调整为好

如果想做调整的话,可以参考下篇文档:
https://docs.pingcap.com/zh/tidb/stable/massive-regions-best-practices#方法五开启-region-merge

https://docs.pingcap.com/zh/tidb/stable/pd-scheduling-best-practices#region-merge-速度慢

1 个赞

之前是调小的,size 设置为5,keys设置为200000,一开始下降每小时2000左右,几小时后速度就变成几十个每小时了

我们已经按照这些方法都尝试过了

推荐你先等 region 慢慢下降吧。看整体是下降的即可。
等整体不下降但是有预期应该 merge 没有 merge 的再看看吧。

观察 PD operator 的调度情况~

如果是正常的在做调度,可能是数据量太大了,只能 让子弹飞一会了

好的,我们再观察一段时间

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。