tidb集群日常的监控报警是如何配置的

【 TiDB 使用环境】 测试
【 TiDB 版本】v7.5.3
【复现路径】tidb集群日常的监控报警是如何配置的呢?
系统层:
cpu利用率, mem利用率, net带宽,磁盘利用率,服务器存活
实例层:
tidb进程【端口存活】,读写qps,thread连接数等
pd进程【端口存活】
tikv进程【端口存活】

对这些的监控报警大家都是如何托管的呢

【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】

托管是个什么概念?

告警一般采用默认配置就可以了,如果环境中有一些状态就需要手工调整阈值,或者频率了

看官方文档有这一块的说明的

你要的是告警信息自动通知?

是的,假如配置的报警达到某个阈值后会通过短信方式发出来

我是配置的企业微信和飞书告警

2 个赞

prometheus功能还挺强大,哈哈,感谢大神

先自己配置下邮件告警,关键在于各种告警工具的学习

根据自己需求设置告警阈值了

用默认的告警配置就行,有误报就调整阈值

promethsus指标接入im告警就完事了

  1. 在 Grafana 中创建面板,选择需要展示的指标。
  2. 设置报警条件,例如:
  • “当 CPU 利用率 > 80% 时发送警报”
  1. 配置通知渠道(如邮件、Slack、Webhooks 等)。
1 个赞

定时去查Prometheus的api 再根据设定的阈值去决定是否告警

可以设置钉钉报警使用webhook,在alertmanager.yml配置文件中设置,参考下面内容

自己写个脚本调用钉钉机器人都行。

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。