promethues数据大小异常

像风一样的男子 · 2023 年12 月 21 日 06:59

【 TiDB 使用环境】生产环境 /测试/ Poc
我这有一个集群只有3个kv、3pd、3个tidb,平均qps也不高一千左右，prometheus每天产生的数据有3G多，保留半年数据需要靠近600G磁盘，这正常吗？

wangccsy · 2023 年12 月 21 日 07:35

你们在生产环境用上了吗？我还在学习阶段呢。前不久刚接触。不过我们能用上的可能性较小。

像风一样的男子 · 2023 年12 月 21 日 08:50

用的人挺多的啊

caiyfc · 2023 年12 月 21 日 08:55

蹲一下。我们有个生产集群一天30g，不知道啥情况

像风一样的男子 · 2023 年12 月 21 日 08:56

我这个是从库，只有6台机器，基本没什么访问量，感觉数据量不正常。

DBRE · 2023 年12 月 21 日 09:05

截图里是wal目录下的内容吗？

DBRE · 2023 年12 月 21 日 09:13

prometheus各子目录占用是什么情况？wal多吗？

caiyfc · 2023 年12 月 21 日 09:17

我还说少了，是70g左右。看起来wal也不少

普罗米修斯 · 2023 年12 月 21 日 09:21

看了下我们的一天最多3G 你们这磁盘挺大的

DBRE · 2023 年12 月 21 日 09:33

1、prometheus data 01开头的目录占用多，说明采集到的数据多，可以通过curl tidb/tikv/pd各组件的metrics接口, 看下返回行数。如果返回行数在数十万、百万行的话，确实不正常，这就需要抛弃掉一些metrics了。一般来讲tikv的metrics可能会异常，可以在 prometheus.yml文件 - job_name: "tikv"处最下方增加如下配置来减少数据采集，然后通过tiup 重启下prometheus。不过拓扑变更的话此配置会被回滚掉。
metric_relabel_configs:
- source_labels: [name]
separator: ;
regex: tikv_thread_nonvoluntary_context_switches|tikv_thread_voluntary_context_switches|tikv_threads_io_bytes_total
action: drop
- source_labels: [name,name]
separator: ;
regex: tikv_thread_cpu_seconds_total;(tokio|rocksdb).+
action: drop

2、如果wal多，可能是prometheus没有及时checkpoint, 一般是因为采集数据量大
可以在log/promethues.log日志文件过滤Starting TSDB …和TSDB started关键词，看prometheus是否经常重启。不过按照第1步操作的话会减少这种情况。

caiyfc · 2023 年12 月 21 日 09:35

感谢解答

有猫万事足 · 2023 年12 月 21 日 14:07

像风一样的男子 · 2023 年12 月 22 日 00:32

tidb采集的metric太多了，如果都按照这样配置是不是太麻烦了。

DBRE · 2023 年12 月 22 日 01:25

是挺麻烦的，reload等操作配置都会被覆盖，tiup cluster edit-config没有找到可以这样配置的地方。要么就是tiup操作之外再封装一层对prometheus.yml的操作

小龙虾爱大龙虾 · 2023 年12 月 22 日 01:54

看下prometheus ui中的指标统计信息，是不是有指标泄漏的情况，如果有某个指标占用空间过大，请参考这个配置不收集该指标项：
https://docs.pingcap.com/zh/tidb/stable/customized-montior-in-tiup-environment#自定义-prometheus-scrape-配置

DBRE · 2023 年12 月 22 日 05:59

这个可以的，不过我们最高5.2版本，用不了

像风一样的男子 · 2023 年12 月 22 日 06:14

是tiup cluster edit-config 编辑集群配置然后在monitoring_servers这边添加metric_relabel_configs规则？这样是否每个节点都会生效？
我看文档写的不够详细。

小龙虾爱大龙虾 · 2023 年12 月 22 日 08:15

你去prometheus配置文件看下最终生成的配置文件就好了

小龙虾爱大龙虾 · 2023 年12 月 22 日 08:16

应该不影响，这个功能是tiup实现的功能，升级下tiup就好了

system · 2024 年3 月 11 日 07:21

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。