通过operator部署的promethues节点磁盘占用过多，10天数据占80G,麻烦各位大神帮忙解决下

TiDBer_jYQINSnf · 2021 年6 月 8 日 09:31

流量比这个集群大的也有，每个集群的流量都不一样，这个异常的集群流量和数据量都不是最大的，但是监控数据最多。

这个怎么理解?如果说采集频率是15秒，每次Prometheus向各个exporter发请求拉数据，不同集群拿到的metric应该也都是一样的，所以条目数是大致一样的吧。然后保存周期也是一样的，所以总的数据量应该差距不太大吧。

如果说因为每次采集到的数据变化量大，导致无法压缩，那应该是大部分集群大，有一个常年采集到的数据都是000000，然后好压缩，这个好压缩的量小。

怎么继续定位？

懂的都懂 · 2021 年6 月 8 日 09:38

这个理解是对的。我怀疑的是数据的压缩比不一样导致的。

TiDBer_jYQINSnf · 2021 年6 月 8 日 09:49

具体怎么看？这个都是tidbmonitor这个crd生成的资源，配置是一样的。或者说有什么办法调整下压缩比，直接压缩下试试？我看tidbmonitor里面有个commandOptions，我如果想加–storage.tsdb.wal-compression 或者降低采集频率，怎么处理?

懂的都懂 · 2021 年6 月 8 日 09:51

我不是专门做 prometheus 的，所以可能建议不是很专业。
可以尝试一下调整 scrape_interval
也可以看一下 storage.local.max-chunks-to-persist
这个是一个 prometheus 的问题。您可以到 prometheus 社区获得专业的帮助。

TiDBer_jYQINSnf · 2021 年6 月 8 日 09:58

谢谢@懂的都懂

麻烦问下，怎么调整这两个值？

懂的都懂 · 2021 年6 月 8 日 10:37

这个不是 tidb 的参数，是 prometheus 的参数。所以需要在 prometheus 的配置文件添加。

TiDBer_jYQINSnf · 2021 年6 月 8 日 12:13

主要全部通过operator管的，咨询下operator添加的方法

试了下模仿图中的加法增加一个–storage.tsdb.wal-compression方法，不好使，得同时把配置文件挂出来。

同时希望pingcap的大神继续帮忙定位下，具体为什么这个集群的数据超别的集群那么多。

DanielZhangQD · 2021 年6 月 11 日 04:13

试了下模仿图中的加法增加一个–storage.tsdb.wal-compression方法，不好使 不好使是说没有生效？Operator 版本是什么？配置 yaml 发一下看看？

handlerww · 2021 年6 月 11 日 06:52

我尝试了一下加 --storage.tsdb.wal-compression，可以加到 Prometheus 的启动项上，不知道不好使是说没有生效还是没办法解决问题，另外可以贴一下 Monitor 的相关配置

TiDBer_jYQINSnf · 2021 年7 月 2 日 12:20

新开了个帖子，把正确的配置信息贴哪里了。

不好使的意思是上面说的，如果不加/etc/prometheus/prometheus.yaml的话，pod启动不了。

TiDBer_jYQINSnf · 2021 年7 月 2 日 12:20

参考上一个回帖

懂的都懂 · 2021 年7 月 5 日 06:03

system · 2022 年10 月 31 日 19:16

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。