server is busy region块分布不均

xqwbx163 · 2022 年3 月 28 日 08:06

h5n1 · 2022 年3 月 28 日 08:06

看着qps不高，但磁盘的io量还是挺大，看下在执行的那些SQL和执行计划

xqwbx163 · 2022 年3 月 28 日 08:16

刚刚看了一下，发现有大量的delete操作

h5n1 · 2022 年3 月 28 日 08:42

看下这些SQL是否是正常的业务，能否优化？能否停下来然后在看集群状态。tikv处理不过来大量写入后就会server busy

xqwbx163 · 2022 年3 月 28 日 08:49

嗯，我刚刚删掉了哪些进程。
大佬，这种情况，是否可以通过添加tikv节点，来缓解当前的情况？

h5n1 · 2022 年3 月 28 日 08:53

杀了进程后什么状态？底层存储资源没争抢的情况下可以扩tikv, 现在一个tikv十几万的region量还是比较多的，是不是有很多空region。 3.0的版本有点老了，有条件还是升级到较新的版本吧

xqwbx163 · 2022 年3 月 28 日 08:58

我不知道3.0版本，怎么查看空region,监控面板上，看不到empty-xxx

TiDBer_jYQINSnf · 2022 年3 月 28 日 09:04

你这个规模够大的啊。
https://docs.pingcap.com/zh/tidb/v3.0/tikv-configuration-file#raft-base-tick-interval

这个参数调大一些呢？我的想法是现状默认1s，你调大成10s，集群之间的消息数量小了，相当于120k的region变成了12k的region，会不会好一些。

个人想法，调整参数需要重启，是否可以调整可以慎重考虑下。

h5n1 · 2022 年3 月 28 日 09:24

有PD面板吗？或者pd-ctl region check empty-region|grep start_key|wc -l

xqwbx163 · 2022 年3 月 28 日 10:01

这个命令执行了30分钟，还没出来结果

xqwbx163 · 2022 年3 月 28 日 12:04

再请教一下，如果命令查出了空region，
是否可以手动通过命令去清理那些空region？

h5n1 · 2022 年3 月 29 日 01:14

3.0默认开启空region合并。
coprocessor.split-region-on-table 控制是否开启跨表合并
“max-merge-region-size”: 50, “max-merge-region-keys”: 200000 控制merge region的阈值，pd-ctl调整

xqwbx163 · 2022 年3 月 29 日 01:28

昨天下午，我对所有的进程做了梳理。
发现processlist中有很多delete的操作被hold住，就算delete执行完还是会定时发起。
后续先把这种业务操作，delete的进程全部kill掉。让业务方不发起delete的操作，到目前为止，server is busy就没有出现过

h5n1 · 2022 年3 月 29 日 01:35

tikv实例需要扩充

xqwbx163 · 2022 年3 月 29 日 01:41

嗯，我申请了两个节点，今天会加上去，但目前server is busy没了，但region不均的情况还是存在，而且现在GC的时间也长达8个小时才完成，这个很不正常

h5n1 · 2022 年3 月 29 日 01:49

pd-ctl store看region-weight、score什么的有不同吗

xqwbx163 · 2022 年3 月 29 日 02:53

region-weight 的值都是1 ,socre都没什么变化

h5n1 · 2022 年3 月 29 日 02:55

那就还是空region问题，high-sapce-ratio下score是按实际空间大小计算的。

xqwbx163 · 2022 年3 月 29 日 03:14

我昨天执行那个统计空region的操作，一直没有返回结果
这些空region 有什么处理方案，可以参考吗？

h5n1 · 2022 年3 月 29 日 03:29

你看PD或overview面板上有region health监控吗

server is busy region块 分布不均

server is busy region块分布不均