如何查看TiDB集群数据的真实大小

wakaka · 2023 年2 月 22 日 01:39

【 TiDB 使用环境】生产环境
【 TiDB 版本】5.0.6
【复现路径】 pd监控和数据字典查出来差距较大，并且出现null的库名占用
【遇到的问题：问题现象及影响】
【资源配置】
【附件：截图/日志/监控】

1、查tables，不到10T
select sum(data_length+index_length)/1024/1024/1024 from INFORMATION_SCHEMA.tables;

2、查TIKV_REGION_STATUS，除去NULL，加起来不到30T

问题有两个：
1、db_name是null的是什么导致的？
2、pd的100多T和数据字典的差距太大是什么导致的，如何解决？

Kongdom · 2023 年2 月 22 日 01:42

可以参考类似的发帖

wakaka · 2023 年2 月 22 日 01:46

这个就是我发的帖子，但是管理员可能觉得时间太长了帮我设置最佳答案了。感觉不太对。差距太大了，30T和100多T

GreenGuan · 2023 年2 月 22 日 01:55

检查下是否存在空 region

Kongdom · 2023 年2 月 22 日 02:03

对，检查一下空region，我这边有个集群就出现实际空间还有，但grafana里显示空间不足，就是空region太多，导致grafana中的数值，和centos里看到的数值差异太大导致的

wakaka · 2023 年2 月 22 日 02:31

空region问题之前也发过帖子，空region不合并

wakaka · 2023 年2 月 22 日 02:33

空region问题之前也发过帖子，空region不合并

裤衩儿飞上天 · 2023 年2 月 22 日 02:33

Grafana的统计也包含了tiflash的数据量

wakaka · 2023 年2 月 22 日 02:34

加上TiFlash 也差的很多，现在100多T

WalterWj · 2023 年2 月 22 日 02:36

去 data 盘 du -sh -d 1 一下。物理存储使用统计最准。

Kongdom · 2023 年2 月 22 日 02:39

我之前遇到的就是，物理存储比如是30G，但是grafana里是300G，结果硬盘是1T，三副本判断是已用900G，就显示节点空间不足，leader副本都被移走了，但实际看物理存储就是30G。
最后我通过备份还原重建集群，grafana就显示正常了。

wakaka · 2023 年2 月 22 日 03:04

物理使用是100多T ，但是业务觉得不合理，不应该这么大。想查占用高的库表，这一查就差这么多，而且删了大表空间等了一天也没释放

wakaka · 2023 年2 月 22 日 03:04

这个集群太大备份恢复的话不太可行了。。

WalterWj · 2023 年2 月 22 日 03:07

感觉不合理的话看看 gc 是不是卡主了，比如 compact 关闭了，gc 调整不合理都有可能导致空间变大。

之前社区都遇到过。

wakaka · 2023 年2 月 22 日 03:14

GC参数就是10分钟，compact没关闭，看着是昨天下午卡住了，那会进行了一些大表的drop操作

WalterWj · 2023 年2 月 22 日 03:16

等等看吧

wakaka · 2023 年2 月 22 日 03:21

嗯嗯，暂时先等这个GC完成，但是量差距过大这个一直问题都存在，不知道是不是GC回收的慢长久以来积压导致。每次如果回收的速度太小感觉一直都会有回收不完的情况。有能提升GC的方法么

WalterWj · 2023 年2 月 22 日 03:28

可以试试新版本，我记得有 compact filter 等优化。

wakaka · 2023 年2 月 22 日 03:30

业务有大量的DDL，官方文档说升级期间不能执行DDL，这块还不好避免，除了升级还有别的办法吗？

胡杨树旁 · 2023 年2 月 23 日 02:18

空region 不合并是否可以手动回收一下？https://docs.pingcap.com/zh/tidb/v5.4/pd-control 临近region合并，跨表空region合并，