ticdc Prometheus 监控指标异常

  • 【TiDB 版本】:v4.0.6
  • 【TiCDC 版本】:v4.0.2-237-gcddc70

删除同步任务后,再重新创建同步任务。同步任务只同步了单个表到MySQL。

Prometheus
min(ticdc_processor_checkpoint_ts) by (changefeed) 获取到的监控指标异常。
max(ticdc_processor_checkpoint_ts) by (changefeed) 获取到的监控指标正常。

因为我这边要添加监控。肯定要使用min来获取延迟信息。

异常指标监控如下:

1 Like

如果 TiDB 这边使用的是 v4.0.6 的版本建议,TiCDC 也使用 v4.0.6 之后的版本。

这边是升级过了cdc到最新的分支版本的,所以显示的版本信息是这样的。

另外:这边发现如果暂停某个同步任务,重新启动后,这个同步任务就会在别的cdc节点上同步。而之前cdc上的 ticdc_processor_resolved_ts 就会不断增加,导致报警。

请问需要通过这个监控有什么需求吗, 我们可以看下怎么解决

这个导致告警有问题,我的同步任务没有延迟。 但是会一直报警。

【告警】: cdc_checkpoint_high_delay

【 StartsAt 】: 2020-12-01 11:32:46

【 Alertname 】: cdc_checkpoint_high_delay

【 Capture 】: 172.16.72.20:8300

【 Changefeed 】: 1-searchsync-riskcaselawsborderlimitsync

【 Env 】: qcc-tidb-cluster

【 Expr 】: (time() - ticdc_processor_checkpoint_ts / 1000) > 600

【 Instance 】: 172.16.72.20

【 Job 】: ticdc

【 Level 】: critical

【 Description 】: cluster: qcc-tidb-cluster, instance: 172.16.72.20, values: 669.800999879837

【 Summary 】: cdc processor checkpoint delay more than 10 minutes

【 Value 】: 669.800999879837

Hi,目前可以暂时使用 max(ticdc_processor_checkpoint_ts) 替代 ticdc_processor_checkpoint_ts

1 Like

我也遇到了同样的情况,检查checkpoint 是正常的但是一直告警

同遇到过,包括ticdc_owner_checkpoint_ts_lag这个指标也是一样,ticdc版本:5.3.0

不知道是不是旧的信息没有清理导致的

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。