Prometheus数据清理

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【概述】
tidb集群的监控组件安装在了本地目录,发现该目录使用率到达80%了,查看占用情况,发现是Prometheus的data数据,请问这个数据怎么清理一下呢,释放点空间。

【背景】做过哪些操作

【现象】业务和数据库现象

【业务影响】

【TiDB 版本】

【附件】

  1. TiUP Cluster Display 信息

  2. TiUP Cluster Edit Config 信息

  3. TiDB- Overview 监控

  • 对应模块日志(包含问题前后1小时日志)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

1 个赞
  1. 停掉 prometheus 的服务,把 prometheus 的 data 目录 mv 走,然后重新使用 tiup 缩容扩容 prometheus 组建。
    这个 mv 以后 的 prometheus 目录已经是离线的了,那么要删要留你可以自己慢慢处理。新的 prometheus 集群的数据是空的。这种方式相当于做了一个归档。有一段的时间无法监控数据
  2. 调整 prometheus 的数据保留策略,默认值30 天,调整成适当的天数
  1. prometheus 为什么数据多呢?很大程度和采样时间有关系。有一个参数,scrape interval,可以自行百度一下是做什么的。你一秒钟一采样和一分钟一采样,很定数据量不一样。
    4· 按照上面的思路,官方从来没有建议过你修改采样频率。需不需要调整你自己看。但有一点可以确认的,如果你都要删除的数据,你把采样率降低了。肯定比你删了强。毕竟历史上数据的查询不需要那么精确。这种方式叫做降准,或者叫降采样。可以百度一下这两个关键词。一般来说,我推荐用 thanos,这也是我以前使用的成熟的解决方案,我也见过大量的公司使用 thanos,但是架构比较复杂,体量比较大。你还得搞个 minio 魔模仿 s3。复杂是复杂,东西还是好东西,值得你尝试,保不齐以后你就用上了。

谢谢!

大佬 怎么配置scrape interval这个参数,能否指导一下

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。