生产环境,集群版本V5.1.0
遇到一个问题,目前集群Region数很多,将近800W,PD监控中空region就将近160W
为了降低集群负载,考虑对region进行Merge,但开启跨表merge后,空region下降很慢,这是什么原因?
目前看调高相关参数后,undersize_region_count的一直在降,每小时将近降4W,但是empty_region_count降得很慢,每小时几十个,这个速度差别太大了,请帮忙分析下原因
生产环境,集群版本V5.1.0
遇到一个问题,目前集群Region数很多,将近800W,PD监控中空region就将近160W
为了降低集群负载,考虑对region进行Merge,但开启跨表merge后,空region下降很慢,这是什么原因?
目前看调高相关参数后,undersize_region_count的一直在降,每小时将近降4W,但是empty_region_count降得很慢,每小时几十个,这个速度差别太大了,请帮忙分析下原因
看起来整体是在 merge 的 ,要不再等等。有个办法是将 merge size 和 keys 调小,让他优先 merge empty 的
生产环境,为了避免生产压力,还是不做调整为好
如果想做调整的话,可以参考下篇文档:
https://docs.pingcap.com/zh/tidb/stable/massive-regions-best-practices#方法五开启-region-merge
https://docs.pingcap.com/zh/tidb/stable/pd-scheduling-best-practices#region-merge-速度慢
之前是调小的,size 设置为5,keys设置为200000,一开始下降每小时2000左右,几小时后速度就变成几十个每小时了
我们已经按照这些方法都尝试过了
推荐你先等 region 慢慢下降吧。看整体是下降的即可。
等整体不下降但是有预期应该 merge 没有 merge 的再看看吧。
观察 PD operator 的调度情况~
如果是正常的在做调度,可能是数据量太大了,只能 让子弹飞一会了
好的,我们再观察一段时间
此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。