region 分布不均

版本 v5.1.0

遇到了 tikv region 分布不均的问题,三个 tikv 的机器配置是相同的,监控信息如下:

可以看到 leader 和 region 大部分都分布在 172.26.55.92 节点上。

根据官方排查文档,先查询了各节点的 store 打分:

三个 store 的打分看起来差的不多。另外 scheduler 的信息如下:

image

到这里,不知道接下来应该朝哪个方向排查优化了,麻烦大佬给点思路,谢谢!

1 个赞

可以先参考这个文档排查下,先确认下是否有正常生成调度(在 pd-ctl 中看下具体的调度配置情况:config show scheduler),若调度正常生成,看下是否调度速度太慢,可以通过调大参数 leader-schedule-limitregion-schedule-limitstore limit 来加速 region 均衡:
https://docs.pingcap.com/zh/tidb/stable/pd-scheduling-best-practices#leaderregion-分布不均衡

原配置:

修改后配置:

修改以下四个参数:

leader-schedule-limit: 12 → 24

region-schedule-limit: 40 → 80

max-pending-peer-count: 2147483647 → 4147483647

max-snapshot-count : 9 → 18

跑了段时间,region 还是很不均衡,接下来可以从哪个角度去排查问题?

从 pd-ctl 的 store 信息中查看,三个 tikv 使用空间只有 2 G 左右,region_score 的分数比较接近,可以看下集群中是否有较多的小 region 或者空 region ,如果是的话尝试进行 region merge ,然后再观察下 region 分布情况。

region merge ,可以了:

做了以下操作:

config set max-merge-region-keys 50000
config set max-merge-region-size 10

根据官方文档,这两个值是有默认值的,但是刚查看的时候发现这两个参数值都是0:

image

这个到时候再看看,谢谢老哥!

1 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。