Prometheus定义的告警rule文件,定义的DM监控指标是在哪有说明?

Prometheus+alertManager
如题:像表达式中的【dm_relay_space】这个是在哪定义的代表什么意思? 这些数据在哪维护?
rules:

  • alert: DM_remain_storage_of_relay_log
    expr: dm_relay_space{type=“available”} < 10102410241024
    labels:
    env: dm-cluster-prod
    level: critical
    expr: dm_relay_space{type=“available”} < 10
    102410241024
    annotations:
    description: ‘cluster: dm-cluster-prod, instance: {{ $labels.instance }}, values: {{ $value }}’
    value: ‘{{ $value }}’
    summary: DM remain storage of relay log

DM 监控指标 | PingCAP Docs

参考这个文档,并结合grafana监控,对照着看。

数据存在 prometheus 里面吧,它会周期性地从 DM 拉数据的。

我不理解像配置里的【dm_relay_space】这个关键字是在哪定义的? 还有哪些这样的关键字?

是说代码吗:

relayLogSpaceGauge = metricsproxy.NewGaugeVec(
		&promutil.PromFactory{},
		prometheus.GaugeOpts{
			Namespace: "dm",
			Subsystem: "relay",
			Name:      "space",
			Help:      "the space of storage for relay component",
		}, []string{"type"}) // type can be 'capacity' and 'available'.

前面的 dm 和 relay 是 namespace 一样的前缀,这个 metric 是这样定义的。

你这个是什么的代码? dm的吗?

对的。

使用的时候应该不用考虑在哪里有定义吧?您要改 grafana 的 dashboard 配置之类的吗?

我是想修改告警的配置。 告警条件判断【 expr: dm_relay_space{type=“available”} < 10 1024 1024 1024】 如果不知道像dm_relay_space 意义和有哪些这样的指标的话,就没法改了。

了解,好像确实没有相关的文档,后续会考虑补充的:cry:

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。