求大佬指导下grafana 监控项如何配置

cheng · 2022 年9 月 14 日 02:00

【 TiDB 使用环境】生产环境 /测试/ PCO
【 TiDB 版本】
【遇到的问题】
【复现路径】做过哪些操作出现的问题
【问题现象及影响】
集群初始的grafana 监控是有默认的监控告警项的但是每个都是no data（集群已经运行了很久了，有监控数据），点进去看有个报错，网上找了下都没说的很详细，就说要改Metrics
我还是不明白要怎么弄
metrics 中的sql 要怎么写，是不是可以直接使用文档中的报警规则，还有如果我要配置途中机器内存使用率的告警的话我要从哪个监控项下的alert 进去呢
TiDB 集群报警规则 | PingCAP Docs

xiaohetao · 2022 年9 月 14 日 02:16

图1：
1、如果是刚启动的集群，no data 就等等看；
2、如果不是，检查下每个节点 export 进程是否正常；

图2：
1、监控参数中有变量配置不对，检查下参数配置吧（检查时有无效的变量还是变量参数不对）；

图3：
这个告警配置我也不太清楚，咨询下其他老师

Billmay表妹 · 2022 年9 月 14 日 02:23

参考下·

cheng · 2022 年9 月 14 日 02:49

文章中这段说的调试，但是提供的网址打不开

cheng · 2022 年9 月 14 日 02:57

配置文件中的告警项和官方文档中配置的一样的，但是grafana中其实是没有这个告警项的
能不能截图下配置过程

cheng · 2022 年9 月 14 日 03:18

我不是要收集prometheus的数据我是要配置监控告警 - 就是grafana 上的告警

Aric · 2022 年9 月 20 日 06:11

首先你看到的是 grafana 自带的报警，而 TiDB 官方文档说明中的报警是 prometheus 的；
grafana 的报警可以不用管，因为里面很多报警阈值是不准的，也推荐使用 tidb 官方提供的报警规则（prometheus 是产生报警的，部署完就有，alertmanager 是发送报警给人类的，需要手动配置），就是说只要配下 alertmanager 你就能接到报警了；
如何配置 alertmanager，https://docs.pingcap.com/zh/tidb/stable/customized-montior-in-tiup-environment#自定义-alertmanager-配置

cheng · 2022 年9 月 21 日 01:18

我看了下现在集群就已经配了，然后要怎么弄呢

Aric · 2022 年9 月 21 日 03:40

从这里开始，按需模仿配置 → https://blog.csdn.net/fu_huo_1993/article/details/114597863

system · 2022 年11 月 20 日 03:40

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。