Tikv region size突然上涨,居高不下

【 TiDB 使用环境】生产环境
【 TiDB 版本】5.4.0
【遇到的问题】TiKV approximate region size is more than 1GB持续告警
【复现路径】暂未
【问题现象及影响】
现象:持续告警,grafana上看到的 【approximate region size】面板数据持续上涨
影响:暂无

集群用途:【Juicefs的元数据服务】
目前这个告警一直持续了1天多,region size增长特别快,当前集群主要是TIKV组件,部署了一个TIDB用于GC,目前GC正常工作
集群除了这个告警,暂无其他异常

【附件】
Tiup cluster Display信息:

Tiup Cluster Edit Config信息:

【approximate region size】面板监控:

tikv部分日志:

其中一个region信息:
CF default 非常大,并且mvcc num_rows特别多

GC配置如下:

TIKV GC面板

请提供各个组件的 version 信息,如 cdc/tikv,可通过执行 cdc version/tikv-server --version 获取。

这日志写的是,分裂失败,指定的分裂key不属于当前region。所以,你对分裂做了什么吗?

没有做什么,这个集群一直是给Juicefs用的,没有人工干预过

今天涨的特别厉害,

是不是定时任务的批量写入大数据

batch-split-limit,可以调大,增加一下分裂速度。

是否存在批量任务,做数据?

分裂失败,指定的分裂key不属于当前region

1 个赞

目前集群region size已自动恢复到正常水平,这种突发现象,不太确定是否是由大批量写数据导致的,请问从TIKV侧,有哪个监控指标可以判断是否是大批量写导致的吗

可以看些dashboard的热点图,也没有写热点的现象?

使用 pd ctl 手动分裂下相关 region。

operator add split-region 1 --policy=approximate // 将 Region 1 对半拆分成两个 Region,基于粗略估计值
operator add split-region 1 --policy=scan // 将 Region 1 对半拆分成两个 Region,基于精确扫描值