cdc_processor_checkpoint_tso_no_change_for_1m 一直报警 一会 Resolved 一会 Firing

【 TiDB 使用环境】生产环境
【 TiDB 版本】v6.1.1
【复现路径】无
【遇到的问题:问题现象及影响】
[1] Firing
Labels
alertname = cdc_processor_checkpoint_tso_no_change_for_1m
一会Resolved 一会又Firing了,一直在不断报警,几分钟一次
【资源配置】
【附件:截图/日志/监控】
查看 ticdc 的 lag监控,Changefeed checkpoint lag 和Changefeed resolved ts lag 断断续续时间挺长

看cdc单独部署在8核16G的机器上看cpu偶尔有点高,但没到上限,内存用了一半左右。

根据您的描述,这个问题可能是由于 TiCDC 的 checkpoint TSO 未发生变化导致的。TiCDC 会定期记录 checkpoint TSO,用于恢复同步任务。如果 checkpoint TSO 未发生变化,可能会导致同步任务无法正常进行。

解决这个问题的方法是,检查 TiCDC 的同步任务是否正常,以及 TiCDC 的监控指标是否正常。您可以按照以下步骤进行操作:

  1. 检查 TiCDC 的同步任务是否正常。您可以使用 TiCDC 的命令行工具 tiup ctl 或者 PD 的监控面板查看 TiCDC 的同步任务状态。如果同步任务状态正常,可以排除同步任务异常导致的问题。

  2. 检查 TiCDC 的监控指标是否正常。您可以使用 TiCDC 的监控面板或者 Grafana 监控 TiCDC 的监控指标,例如 checkpoint TSO、resolved TS 等指标,查看是否存在异常波动或者持续不变的情况。

  3. 如果 TiCDC 的监控指标存在异常,可以尝试重启 TiCDC 节点,或者使用 TiCDC 的动态调整参数功能,逐步调整参数,观察监控指标是否恢复正常。

  4. 如果 TiCDC 的监控指标正常,但是仍然存在报警,可以尝试调整报警规则,例如调整报警阈值、调整报警时间间隔等,以减少误报。

需要注意的是,TiCDC 的同步任务比较复杂,需要根据具体情况进行分析和解决,建议您在解决问题之前备份好数据,以免数据丢失。同时,建议您在部署 TiCDC 时,根据实际业务情况和硬件配置,合理设置 TiCDC 的参数,以避免同步任务异常或者监控指标异常等问题。


参考官方要求配置~

我看我的cdc机器负载不高,cpu,内存没到一半,

请把 dataflow 那个监控项对应时间段的监控也贴一下,即含有 puller ,sorter, sink output events /s 的指标。

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。