tidb 集群 promtheus节点磁盘空间增长快速

TiDBer_yyy · 2023 年8 月 31 日 10:33

【 TiDB 使用环境】生产环境
【 TiDB 版本】5.0.4
【复现路径】集群promtheus 机器从3月份到现在磁盘从200G 扩到1200G，磁盘空间增长特别快。
【遇到的问题：问题现象及影响】
磁盘增长越来越快。
【资源配置】
启动脚步

exec bin/prometheus/prometheus \
    --config.file="/data/tidb-deploy/prometheus-9090/conf/prometheus.yml" \
    --web.listen-address=":9090" \
    --web.external-url="http://xxxxxx:9090/" \
    --web.enable-admin-api \
    --log.level="info" \
    --storage.tsdb.path="/data/tidb-data/prometheus-9090" \
    --storage.tsdb.retention="30d" \
    --storage.tsdb.max-block-duration=2h \
    --storage.tsdb.min-block-duration=2h

【附件：截图/日志/监控】
ps：

期间集群磁盘扩容过，增长情况不明显。
已经确定机器只有promtheus tsdb占用磁盘最多。

image3420×376 54.7 KB

问题：
如何降低promtheus db存储空间

zhanggame1 · 2023 年8 月 31 日 10:47

调整监控数据的保存时间。数据不要了也可以把监控组件缩容再扩容

cassblanca · 2023 年8 月 31 日 12:23

–storage.tsdb.retention 设置小一点或者直接指定存储大小 --storage.tsdb.retention.size ：要保留的存储的大小

昵称想不起来了 · 2023 年8 月 31 日 13:34

–storage.tsdb.retention再调小点？想保留的重要时间数据可以导出个快照？

大飞哥online · 2023 年9 月 1 日 02:13

–storage.tsdb.retention=“30d” 保存一个月的可以改成15d 或7d

TiDBer_yyy · 2023 年9 月 1 日 02:22

公司要求保留30天，这个不太能调整

大飞哥online · 2023 年9 月 1 日 02:25

#可以为块存储的最大字节数。支持的单位：KB，MB，GB，TB，PB。
–storage.tsdb.retention.size=STORAGE.TSDB.RETENTION.SIZE
或者就是固定的限制大小

TiDBer_yyy · 2023 年9 月 1 日 02:27

收到，我试试

像风一样的男子 · 2023 年9 月 1 日 05:59

你这个日志大的有点异常了，我这保存30天的日志才100g不到，检查下你的prometheus 是不是有异常

tidb菜鸟一只 · 2023 年9 月 1 日 06:16

你这是多大的集群规模啊，prometheus日志能这么大？

TiDBer_yyy · 2023 年9 月 1 日 06:17

30TB，28个tikv

DBRE · 2023 年9 月 1 日 06:17

prometheus配置文件在job tikv处增加如下内容，去掉一些metric的采集，这样可以减少存储，不过每次拓扑变更会覆盖这个配置，需要重新改下，再restart prometheus
metric_relabel_configs:
- source_labels: [name]
separator: ;
regex: tikv_thread_nonvoluntary_context_switches|tikv_thread_voluntary_context_switches|tikv_threads_io_bytes_total
action: drop
- source_labels: [name,name]
separator: ;
regex: tikv_thread_cpu_seconds_total;(tokio|rocksdb).+
action: drop

zhanggame1 · 2023 年9 月 1 日 06:37

规模很大了，服务器数量呢

TiDBer_yyy · 2023 年9 月 1 日 06:38

总数量40+；不太大吧。tidb官方同学说，支持了300TB的集群

TiDBer_yyy · 2023 年9 月 1 日 06:39

收到，大佬

zhanggame1 · 2023 年9 月 1 日 06:39

支持是支持，对硬件要求也高，你还是加硬盘吧

TiDBer_yyy · 2023 年9 月 1 日 06:45

好吧

tidb菜鸟一只 · 2023 年9 月 1 日 07:58

tidb默认监控项很多的，集群规模肯定支持，但是监控日志量必须保存30天肯定也很大。

redgame · 2023 年9 月 3 日 09:04

把不需要的监控项停下试试

TiDBer_yyy · 2023 年9 月 4 日 08:34

大佬，我也感觉tidb默认的监控项太多了，能清理哪些呢

tidb 集群 promtheus节点 磁盘空间增长快速

tidb 集群 promtheus节点磁盘空间增长快速