prometheus wal 爆了

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
【概述】4.0.8 prometheus 的磁盘空间增长很快,wal不断增加。
【背景】operator部署的,operator版本v1.1.13
【现象】100G的磁盘,reserveDays设置成4了还不行。

2 个赞
  1. 麻烦展示下 prometheus 目录哪些文件占用多
  2. 集群当前规模多大?
  3. prometheus 都修改过哪些参数?

麻烦发下prometheus 最近内存变化趋势。
我们最近发现一个类似问题,正在调查中,这两天会有结论

就是改了reserveDays=4

内存的话不知道从哪里看,grafana里面没有Prometheus自身的内存监控吧。倒是重启后,应用wal的时候会oom,我们设置的是16G,oom的话,就先改成不限制内存,等应用完wal后再限制

这个原因是tikv记录的metric包含线程id,线程结束后,没有删除指标,导致值持续增加。prom每次去拉取的数据量持续增加。内存和wal持续增加。
临时解决,需要删除prom对应的label(去除线程相关的几个指标(具体我在确认下方法稍后答复),不影响监控)
长期会在之后的版本解决,多谢。

:+1: 这是我期待的答案,哪个版本修复后麻烦回答一下。谢谢。

–storage.tsdb.wal-compression:此标志启用预写日志(WAL)的压缩。根据您的数据,您可以预期WAL大小将减少一半,而额外的CPU负载却很少。此标志在2.11.0中引入,默认情况下在2.20.0中启用。请注意,一旦启用,将Prometheus降级到2.11.0以下的版本将需要删除WAL。
当前tidb 的prometheus 的版本2.8.1 有点老了

1 个赞

参考这个:TiDB监控Prometheus磁盘内存问题

1 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。