tikv的region、leader分布不均衡，pd不调度

像风一样的男子 · 2023 年4 月 10 日 01:27

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】 5.4.2
【复现路径】执行命令tiup cluster scale-in 缩容tikv后发现问题
【遇到的问题：问题现象及影响】
发现各个tikv的leader不均匀有一个节点的tikvleader直接变成0了，region也分布恨不均匀

【资源配置】
【附件：截图/日志/监控】

xfworld · 2023 年4 月 10 日 01:32

参考 SOP 吧

按照 SOP 的步骤，排查一下先，总结一下问题，如果还没办法解决，在继续追加一些资料在看看

像风一样的男子 · 2023 年4 月 10 日 01:43

都是按照官方文档操作的，已经过去2天了，这个tikv regin分布还是没有自动均衡

像风一样的男子 · 2023 年4 月 10 日 01:43

【SOP 系列 19】region 分布不均问题排查及解决不完全指南这个页面404了

xfworld · 2023 年4 月 10 日 01:51

没有啊

https://asktug.com/t/topic/95824

像风一样的男子 · 2023 年4 月 10 日 02:12

显示糟糕！该页面不存在或者是一个不公开页面。

xfworld · 2023 年4 月 10 日 02:16

访问这个试试

TiDBer_jYQINSnf · 2023 年4 月 10 日 02:30

你这个集群有点优秀，200多k的region数，真是NB，得多大的磁盘。
不均衡大概率是因为label的原因，比如说3副本，得在3台机器上。
ABC 3台机器的话，你A上2个tikv，那A上的2个tikv就平分1个副本，也就是A上的tikv1+tikv2=其他机器的region数。

Kongdom · 2023 年4 月 10 日 03:03

先看一下各节点的打分情况吧，打分接近时，才可能百分百均衡

Jiawei · 2023 年4 月 10 日 03:50

应该还是在调度参数上，排查流程按照上面的sop就好，确认下具体的调度参数是否合理

像风一样的男子 · 2023 年4 月 10 日 05:50

我又新增了一个节点发现完全不调度，打分也没有

像风一样的男子 · 2023 年4 月 10 日 05:52

我这是一个kv一个服务器不存在一个服务器2个kv的情况，缩容一个kv后各个kv的regin分布就不均衡了

TiDBer_jYQINSnf · 2023 年4 月 10 日 05:58

pd-ctl scheduler show
pd-ctl config show
pd-ctl store

拿上来看看

像风一样的男子 · 2023 年4 月 10 日 06:00

pd_show.txt (8.4 KB)
这个文件里有几个pd的参数

考试没答案 · 2023 年4 月 10 日 06:05

把 store 那个命令发下。

考试没答案 · 2023 年4 月 10 日 06:06

store limit 后面也可以对调度进行控制的。您看下。
https://docs.pingcap.com/zh/tidb/stable/configure-store-limit#store-limit

像风一样的男子 · 2023 年4 月 10 日 06:07

pd_show.txt (8.4 KB)
结果在这个文件里

TiDBer_jYQINSnf · 2023 年4 月 10 日 06:07

版本5.4.2不推荐用。
看你发的内容没什么问题。
如果还想继续看看为什么的话，看看grafana中的pd面板，看看operator那几个，有没有create、cancel之类的。

像风一样的男子 · 2023 年4 月 10 日 06:09

还没来得及升级版本，图里是pd的监控

考试没答案 · 2023 年4 月 10 日 06:14

我感觉您可以先等等。您一次型增加了2个 tikv