tikv节点从3个扩容到5个以后,Store Region score一直在波动

tikv节点从3个扩容到5个以后,Store Region score一直处于上下波动的状态,导致apply log 和 append log的时间翻了好几倍。



尝试了几次,把tikv缩容到3个节点就没有这个问题,扩到5个节点又出现。
应该怎么解决,或者排查思路

【 TiDB 使用环境】线上
【 TiDB 版本】 4.0.10

是不是调度还没完成,所以影响了io

高峰期并发写入是否增加了?

调度在几天前就完成了,region的数量本来就不高,扩容后一个小时左右就完成了

业务高峰的时候,查询量上升比较多,写的量也不大的

“把tikv缩容到3个节点就没有这个问题,扩到5个节点又出现”,TiKV节点的配置是否相同?尤其是磁盘IO能力

5台TiKV里面,有两个规格的容量,IO能力是一样的

https://metricstool.pingcap.com/#backup-with-dev-tools 按这个导出扩容前后的 PD 监控页面

jkylcluster-PD_2022-08-30T08_33_19.385Z_last_7_day.json (6.6 MB)

通过监控发现有空region,修改了split-region-on-table,enable-cross-table-merge,并把各个tikv的磁盘容量做了统一,效过还是不太明显

移除了热点region的调度,scheduler remove balance-hot-region-scheduler,各个tikv节点的region调度就不再那么多了,稳定下来,apply log 的时间也从256-512ms降低到了64-128ms,但是跟没有扩容之前的16-32ms相比,还是上升了不少

关闭了热点调度后,region的调度监控不再那么杂乱无章

tiup mirro show看看是什么

没安装mirro,昨天下午15点多关闭了热点调度,到了晚上20点左右,apply log的时间和查询响应时间就恢复到了扩容前的水平了,挺奇怪的,tikv从3个扩容到5个会有多出来那么多的热点调度

感觉像是加入的这2个节点影响调度算法了

是的,现在是把热点调度直接给关闭了

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。