Tikv region size突然上涨，居高不下

TiDBer_27OdodiJ · 2022 年10 月 10 日 08:28

【 TiDB 使用环境】生产环境
【 TiDB 版本】5.4.0
【遇到的问题】TiKV approximate region size is more than 1GB持续告警
【复现路径】暂未
【问题现象及影响】
现象:持续告警,grafana上看到的【approximate region size】面板数据持续上涨
影响：暂无

集群用途：【Juicefs的元数据服务】
目前这个告警一直持续了1天多，region size增长特别快，当前集群主要是TIKV组件，部署了一个TIDB用于GC，目前GC正常工作
集群除了这个告警，暂无其他异常

【附件】
Tiup cluster Display信息：

Tiup Cluster Edit Config信息：

【approximate region size】面板监控：

tikv部分日志：

其中一个region信息:
CF default 非常大,并且mvcc num_rows特别多

GC配置如下:

TIKV GC面板

请提供各个组件的 version 信息，如 cdc/tikv，可通过执行 cdc version/tikv-server --version 获取。

TiDBer_jYQINSnf · 2022 年10 月 10 日 09:31

这日志写的是，分裂失败，指定的分裂key不属于当前region。所以，你对分裂做了什么吗？

TiDBer_27OdodiJ · 2022 年10 月 10 日 11:46

没有做什么,这个集群一直是给Juicefs用的,没有人工干预过

TiDBer_27OdodiJ · 2022 年10 月 10 日 11:50

今天涨的特别厉害,

wuxiangdong · 2022 年10 月 11 日 01:32

是不是定时任务的批量写入大数据

wuxiangdong · 2022 年10 月 11 日 02:20

batch-split-limit，可以调大，增加一下分裂速度。

wisdom · 2022 年10 月 11 日 02:39

是否存在批量任务，做数据？

zhouzeru · 2022 年10 月 11 日 02:50

分裂失败，指定的分裂key不属于当前region

TiDBer_27OdodiJ · 2022 年10 月 11 日 03:44

目前集群region size已自动恢复到正常水平,这种突发现象,不太确定是否是由大批量写数据导致的,请问从TIKV侧,有哪个监控指标可以判断是否是大批量写导致的吗

Raymond · 2022 年10 月 11 日 06:06

可以看些dashboard的热点图，也没有写热点的现象？

WalterWj · 2022 年10 月 11 日 06:10

使用 pd ctl 手动分裂下相关 region。

operator add split-region 1 --policy=approximate // 将 Region 1 对半拆分成两个 Region，基于粗略估计值
operator add split-region 1 --policy=scan // 将 Region 1 对半拆分成两个 Region，基于精确扫描值