tidb集群日常的监控报警是如何配置的

residentevil · 2024 年10 月 3 日 02:33

【 TiDB 使用环境】测试
【 TiDB 版本】v7.5.3
【复现路径】tidb集群日常的监控报警是如何配置的呢？
系统层：
cpu利用率, mem利用率, net带宽，磁盘利用率，服务器存活
实例层：
tidb进程【端口存活】，读写qps，thread连接数等
pd进程【端口存活】
tikv进程【端口存活】

对这些的监控报警大家都是如何托管的呢

【遇到的问题：问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件：截图/日志/监控】

xfworld · 2024 年10 月 3 日 08:37

托管是个什么概念？

告警一般采用默认配置就可以了，如果环境中有一些状态就需要手工调整阈值，或者频率了

koby · 2024 年10 月 3 日 09:27

看官方文档有这一块的说明的

像风一样的男子 · 2024 年10 月 4 日 01:38

你要的是告警信息自动通知？

residentevil · 2024 年10 月 4 日 02:05

是的，假如配置的报警达到某个阈值后会通过短信方式发出来

像风一样的男子 · 2024 年10 月 4 日 02:06

我是配置的企业微信和飞书告警

residentevil · 2024 年10 月 4 日 02:35

prometheus功能还挺强大，哈哈，感谢大神

TiDBer_xTvoCh2f · 2024 年10 月 6 日 14:43

先自己配置下邮件告警，关键在于各种告警工具的学习

YuchongXU · 2024 年10 月 7 日 00:41

根据自己需求设置告警阈值了

zhanggame1 · 2024 年10 月 8 日 02:00

用默认的告警配置就行，有误报就调整阈值

liuis · 2024 年10 月 9 日 10:16

promethsus指标接入im告警就完事了

哈喽沃德 · 2024 年10 月 11 日 06:34

在 Grafana 中创建面板，选择需要展示的指标。
设置报警条件，例如：

“当 CPU 利用率 > 80% 时发送警报”

配置通知渠道（如邮件、Slack、Webhooks 等）。

这里介绍不了我 · 2024 年10 月 11 日 09:51

定时去查Prometheus的api 再根据设定的阈值去决定是否告警

郑旭东石家庄 · 2024 年10 月 11 日 11:15

可以设置钉钉报警使用webhook，在alertmanager.yml配置文件中设置，参考下面内容

TiDBer_5Vo9nD1u · 2024 年10 月 12 日 01:57

自己写个脚本调用钉钉机器人都行。

system · 2024 年10 月 19 日 01:58

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。