prometheus wal 爆了

TiDBer_jYQINSnf · 2021 年10 月 19 日 02:57

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：
【 TiDB 使用环境】
【概述】4.0.8 prometheus 的磁盘空间增长很快，wal不断增加。
【背景】operator部署的，operator版本v1.1.13
【现象】100G的磁盘，reserveDays设置成4了还不行。

yilong · 2021 年10 月 19 日 09:30

麻烦展示下 prometheus 目录哪些文件占用多
集群当前规模多大？
prometheus 都修改过哪些参数？

TiDBer_0MVBFcPf · 2021 年10 月 19 日 09:47

麻烦发下prometheus 最近内存变化趋势。
我们最近发现一个类似问题，正在调查中，这两天会有结论

TiDBer_jYQINSnf · 2021 年10 月 19 日 12:33

就是改了reserveDays=4

TiDBer_jYQINSnf · 2021 年10 月 19 日 12:34

内存的话不知道从哪里看，grafana里面没有Prometheus自身的内存监控吧。倒是重启后，应用wal的时候会oom，我们设置的是16G，oom的话，就先改成不限制内存，等应用完wal后再限制

yilong · 2021 年10 月 21 日 14:22

这个原因是tikv记录的metric包含线程id，线程结束后，没有删除指标，导致值持续增加。prom每次去拉取的数据量持续增加。内存和wal持续增加。
临时解决，需要删除prom对应的label(去除线程相关的几个指标（具体我在确认下方法稍后答复），不影响监控)
长期会在之后的版本解决，多谢。

TiDBer_jYQINSnf · 2021 年10 月 25 日 06:48

这是我期待的答案，哪个版本修复后麻烦回答一下。谢谢。

18515065291 · 2021 年12 月 26 日 02:57

–storage.tsdb.wal-compression：此标志启用预写日志（WAL）的压缩。根据您的数据，您可以预期WAL大小将减少一半，而额外的CPU负载却很少。此标志在2.11.0中引入，默认情况下在2.20.0中启用。请注意，一旦启用，将Prometheus降级到2.11.0以下的版本将需要删除WAL。
当前tidb 的prometheus 的版本2.8.1 有点老了

18515065291 · 2022 年1 月 21 日 08:19

参考这个：TiDB监控Prometheus磁盘内存问题

system · 2022 年10 月 31 日 19:03

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。