prometheus wal目录数据积压严重

lezhang0912 · 2021 年11 月 19 日 08:43

【 TiDB 使用环境】TiDB V5.1.0
【概述】TiDB V5.1.0扩容新节点后，需要将prometheus组建迁移到新节点上并保留历史数据，为此，将原来旧prometheus的监控数据提前做了备份，待新节点上的prometheus部署好后，把旧数据文件夹里面的数据（除lock、wal）移到新机器的prometheus的data存储路径下。登陆grafana界面，可以看到历史数据。但是，运行大概7天后，wal目录数据出现积压。
参考https://asktug.com/t/topic/183456目前在尝试修改prometheus 中关于tikv thread rule规则删除，想问下这是prometheus bug还是我数据迁移姿势不对呢
【现象】wal目录被撑爆
【业务影响】机器卡顿，占用过多内存资源
【TiDB 版本】V5.1.0

Lucien-卢西恩 · 2021 年11 月 30 日 06:46

Hi～ Prometheus 的监控系统，在监控数据量大的情况，会消耗大量的机器资源。不建议保留太多历史的监控数据，如果需要建议可以做一下归档压缩保存。可以确认一下 prometheus 数据保留时间可以通过参数配置设置，清理机制会根据设置自动清理，需要检查一下是否生效。可以参考一下 prometheus 的启动日志参数配置。

18515065291 · 2021 年12 月 26 日 02:33

最后解决了么？我这也是wal 特别大导致的

18515065291 · 2021 年12 月 26 日 02:56

–storage.tsdb.wal-compression：此标志启用预写日志（WAL）的压缩。根据您的数据，您可以预期WAL大小将减少一半，而额外的CPU负载却很少。此标志在2.11.0中引入，默认情况下在2.20.0中启用。请注意，一旦启用，将Prometheus降级到2.11.0以下的版本将需要删除WAL。
当前tidb 的prometheus 的版本2.8.1 有点老了

lezhang0912 · 2021 年12 月 29 日 11:45

谢谢老哥，我之前是把wal文件夹里面的数据都清掉了，然后就正常了

18515065291 · 2022 年1 月 21 日 08:20

可以看：TiDB监控Prometheus磁盘内存问题

system · 2022 年10 月 31 日 19:04

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。