Tikv磁盘很快就占满了,具体是什么原因,有没有大佬帮忙分析下?

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】V7.1.0
【复现路径】 平常Lightning正常导出数据,从原先的35%磁盘占用上升到78%,业务数据没有增多
【遇到的问题:问题现象及影响】磁盘占满,不知道是不是没有释放空间,因为会经常对表进行rename操作
【资源配置】
【附件:截图/日志/监控】


这些为空的region没有对应到表,是历史数据没被删除占用空间吗

先看看gc是否正常推进了


看起来是正常推进的

进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
看下你的配置~


表妹,这个

看你gc截图中的时间怎么有点奇怪呢

这个是服务器时间,显示多了一个小时

show global variables like ‘tidb_gc_life_time’; 看看这个参数呢

image

你说哪里的磁盘满了,你先去主机看看是啥占用了空间

我粗略统计了下表大小加副本占35%左右,剩下的不知道是什么,但看到有很多没有对应表名的region。不知道是不是这些占用了

到PD面板里可以查看集群总空间、各个节点的可用空间、已用空间、总空间情况,也可以导tikv-details ->Cluster面板查看每个节点磁盘的机器使用情况,先看下集群的空间使用状况。

region-split-size没改过的话,即使没有GC,一个region也才96MB,count下有多少个没有表名的region。

TIKV_REGION_STATUS 表中,TABLE_IDDB_NAMETABLE_NAMENULL 的数据是 TiKV 中的一些系统表或者系统 Region,这些 Region 不属于任何一个用户表,因此在 TIKV_REGION_STATUS 表中无法找到对应的 TABLE_IDDB_NAMETABLE_NAME 信息。

1 个赞

看看Grafana → PD 中Abnormal stores与Region Health的情况,看看是否store有啥异常空region那些是不是真的很多。我看之前有人遇到说是gc的问题

检查一下是什么文件占用的比较大?是日志文件还是数据文件?是tidb集群文件,还是其他文件?
别是谁上传了个大文件到服务器。

登录服务器,先du 看一遍到底什么文件占用的空间,是不是sst文件?

先统计一下什么文件占用了空间

linux操作系统上du看看。以及gc的回收情况,region merge的情况

先看下是那个文件占用磁盘空间大,

  1. 到PD面板里可以查看集群总空间、各个节点的可用空间、已用空间、总空间情况,也可以导tikv-details ->Cluster面板查看每个节点磁盘的机器使用情况
  2. df -h 查看是那个盘占用大
  3. 具体目录中,查看具体的文件
    du -h --max-depth=0
    是否为日志文件