prometheus告警阀值调整问题

【 TiDB 使用环境】生产环境
【 TiDB 版本】
4.0.13
【复现路径】做过哪些操作出现的问题
调整这个监控increase(tikv_coprocessor_request_error{reason!=“lock”}[10m]) > 200为大于200
【遇到的问题:问题现象及影响】
重启集群监控又设置为默认值,需要再次修改,大家有遇到过吗
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面

是不是因为你的版本问题,我们没用遇到过这问题,可以修改的

是可以修改,但是重启集群,他又恢复到默认值了,又要修改为200,重启prometheus

  • rule_dir:该字段指定一个本地目录,该目录中应当含有完整的 *.rules.yml 文件,这些文件会在集群配置初始化阶段被传输到目标机器上,作为 Prometheus 的规则

通过 TiUP 部署 TiDB 集群的拓扑文件配置 | PingCAP 文档中心

把改过的规则和剩下的没改过的都放到rule_dir目录,重启后会自动加载的

1 个赞

好的,我试一下

没有找到这个文件,而且修改告警阀值生效,必须restart promethus,不能reload,reload会还原初始配置

没有配置那个rule_dir,不配置,应该先读bin目录下的规则文件,然后再去读conf目录下的规则文件

把conf目录下需要的rule.yml文件移动到自己新建的rule_dir,重启promethus。
不配置这个目录每次reload以后都会应用初始的rule。

行吧,我试试

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。