server is busy region块分布不均

xqwbx163 · 2022 年3 月 26 日 23:50

节点之间出现 region块严重的不均衡，导致服务器性能出现急剧下降
目前节点之间有两倍的差距，
请教大佬这个应该怎么处理

h5n1 · 2022 年3 月 27 日 00:58

检查下这台server 的cpu 网络磁盘情况

边城元元 · 2022 年3 月 27 日 01:37

看一下各个store的region和评分情况

边城元元 · 2022 年3 月 27 日 01:38

xqwbx163 · 2022 年3 月 27 日 12:18

我通过PD监控，查看PD有三个节点，其中两个节点 store,region的评分都是均衡的，
但还有一个PD节点 store评分不均

xqwbx163 · 2022 年3 月 27 日 12:19

我今天看了这个，对照这个做了参数调整，但发现目前还是没有效果

xqwbx163 · 2022 年3 月 27 日 12:20

我通过DROP大表，希望每个TIKV节点的region可以降下来，但等了4-5个小时，目前还是没有降低

h5n1 · 2022 年3 月 28 日 00:15

https://metricstool.pingcap.com/#backup-with-dev-tools 按此方式将问题前20分钟和问题时间段监控快照导致，包括overview/pd/detail/tidb

xqwbx163 · 2022 年3 月 28 日 00:59

导出报错啊

xqwbx163 · 2022 年3 月 28 日 01:15

我刚刚查看了一下GC leader 服务器下tidb.log
里面GC的时候，也是显示error: scheduler is busy, GC运行失败

Hi70KG · 2022 年3 月 28 日 01:16

个人建议暂时先别DROP大表等操作，DROP大表后，空region变多，调度变多了，故障会更难排查

xqwbx163 · 2022 年3 月 28 日 01:17

现在没有做这个动作，昨天做了大表的DROP

Hi70KG · 2022 年3 月 28 日 01:19

嗯，稳住
看看tikv-details–>thread CPU–>scheduler work cpu 这个监控图

xqwbx163 · 2022 年3 月 28 日 01:23

这是 24小时的

当前1小时的

Hi70KG · 2022 年3 月 28 日 01:24

再看看
TiKV-Details --> Scheduler --> Scheduler writing bytes

xqwbx163 · 2022 年3 月 28 日 01:28

TIKV的监控里面没有找到这个指标

xqwbx163 · 2022 年3 月 28 日 01:28

Hi70KG · 2022 年3 月 28 日 01:35

忘问你tidb集群版本多少？5.0？
TiDB → Query Summary → Statement QPS看看业务流量变化

xqwbx163 · 2022 年3 月 28 日 01:37

我刚查了一下是 5.7.10-TiDB-v3.0.0-beta-27-g6398788:sob:

Hi70KG · 2022 年3 月 28 日 01:48

tidb v3.0好多监控参数比v5.0少呀

TiKV-Details–>Scheduler pending commands如果这个没有来个TiKV-Details

server is busy region块 分布不均