prometheus告警阀值调整问题

路在何chu · 2023 年10 月 11 日 01:44

【 TiDB 使用环境】生产环境
【 TiDB 版本】
4.0.13
【复现路径】做过哪些操作出现的问题
调整这个监控increase(tikv_coprocessor_request_error{reason!=“lock”}[10m]) > 200为大于200
【遇到的问题：问题现象及影响】
重启集群监控又设置为默认值，需要再次修改，大家有遇到过吗
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面

Fly-bird · 2023 年10 月 11 日 01:52

是不是因为你的版本问题，我们没用遇到过这问题，可以修改的

路在何chu · 2023 年10 月 11 日 01:57

是可以修改，但是重启集群，他又恢复到默认值了，又要修改为200，重启prometheus

chenhanneu · 2023 年10 月 11 日 02:27

rule_dir：该字段指定一个本地目录，该目录中应当含有完整的 *.rules.yml 文件，这些文件会在集群配置初始化阶段被传输到目标机器上，作为 Prometheus 的规则

通过 TiUP 部署 TiDB 集群的拓扑文件配置 | PingCAP 文档中心

把改过的规则和剩下的没改过的都放到rule_dir目录，重启后会自动加载的

路在何chu · 2023 年10 月 11 日 02:54

好的，我试一下

路在何chu · 2023 年10 月 12 日 02:16

没有找到这个文件，而且修改告警阀值生效，必须restart promethus,不能reload,reload会还原初始配置

路在何chu · 2023 年10 月 12 日 02:20

没有配置那个rule_dir，不配置，应该先读bin目录下的规则文件，然后再去读conf目录下的规则文件

chenhanneu · 2023 年10 月 12 日 02:41

把conf目录下需要的rule.yml文件移动到自己新建的rule_dir，重启promethus。
不配置这个目录每次reload以后都会应用初始的rule。

路在何chu · 2023 年10 月 13 日 07:51

行吧，我试试

system · 2023 年12 月 12 日 07:51

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。