DM 中 task 状态为3时,如何告警?

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:TiDB 4.0-rc DM 1.0.3
  • 【问题描述】:DM中task状态为3时,如何告警?是否有参考的方案?
    目前想到的有两种方法,一个是alertmanager,另一种是直接在granfa当中进行告警。
    现在的考虑是直接向服务器post一条消息过去就可以,具体服务器中如何实现可自己来,现在需要明确的是,如何触发这个消息的发送。

    这应该是大家普遍关心的问题,或者已经有现成的解决方案了,但在现有文档当中没有搜索以,如果有,请告之一下,谢谢


在DM的grafana中的这个指标
image


若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

你好,

dm 监控的指标在文档中看下是否满足,

grafana 中 Alerting 看下是否有告警机制


https://pingcap.com/docs-cn/tidb-data-migration/stable/monitor-a-dm-cluster

你好,目前这些监控指标已经满足需要了。刚才尝试了一下,使用grafana本身的alert方式,有个限制,不能使用grafana当中的变量,针对多个task任务,要默认建多个指标才可以实现告警,这个方案被pass了。
使用alertmanager方式进行post告警,已经基本实现。方法就是修改alertmanager的配置文件,修改其中的告警方式。使用post方式发送消息时,在接收端会接收到下面这样的信息
{“receiver”:“webhook”,“status”:“firing”,“alerts”:[{“status”:“firing”,“labels”:{“alertname”:“DM_task_state”,“cluster”:“prod-cluster”,“env”:“prod-cluster”,“expr”:“dm_worker_task_state == 3”,“instance”:“10.7.110.125:8262”,“job”:“dm_worker”,“level”:“critical”,“monitor”:“prometheus”,“task”:“k2_m5_all_demo”},“annotations”:{“description”:“cluster: prod-cluster, instance: 10.7.110.125:8262, task: k2_m5_all_demo, values: 3”,“summary”:“dm worker paused exceed 20 min”,“value”:“3”},“startsAt”:“2020-05-25T15:01:18.619800903+08:00”,“endsAt”:“0001-01-01T00:00:00Z”,“generatorURL”:“http://10.7.110.116:9090/graph?g0.expr=dm_worker_task_state+%3D%3D+3\u0026g0.tab=1"}],“groupLabels”:{“alertname”:“DM_task_state”},“commonLabels”:{“alertname”:“DM_task_state”,“cluster”:“prod-cluster”,“env”:“prod-cluster”,“expr”:"dm_worker_task_state == 3”,“instance”:“10.7.110.125:8262”,“job”:“dm_worker”,“level”:“critical”,“monitor”:“prometheus”,“task”:“k2_m5_all_demo”},“commonAnnotations”:{“description”:“cluster: prod-cluster, instance: 10.7.110.125:8262, task: k2_m5_all_demo, values: 3”,“summary”:“dm worker paused exceed 20 min”,“value”:“3”},“externalURL”:“http://kaikaitidb5:9093”,“version”:“4”,“groupKey”:"{}/{}:{alertname=“DM_task_state”}"}
这个已经满中现在的需求了,将这个功能细化一下,就可以了。
谢谢!

:love_you_gesture:,目前推荐的方式也是通过 alertmanager 进行告警,可以接微信和邮件等告警机制。

有问题欢迎开新帖继续讨论。感谢反馈~

好的~

:call_me_hand:

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。