TiCDC同步进度停滞,sorter文件剧增

【 TiDB 使用环境`】生产环境
【 TiDB 版本】v5.3.0
【遇到的问题】
cdc做增量同步,时不时的出现checkpoint停滞不前,有时候又会突然赶上来。昨天又出现了这种情况,checkpoint一直没有变化,checkpoint lag已经达到到13个小时了,并且有两个cdc的sorter剧增

image



【复现路径】做过哪些操作出现的问题
【问题现象及影响】
【附件】

  • 相关日志、配置文件、Grafana 监控(https://metricstool.pingcap.com/)
  • TiUP Cluster Display 信息
  • TiUP CLuster Edit config 信息
  • TiDB-Overview 监控
  • 对应模块的 Grafana 监控(如有 BR、TiDB-binlog、TiCDC 等)
  • 对应模块日志(包含问题前后 1 小时日志)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

看下cdc.log日志, cdc cli changefeed query -c xxx changefeede的状态

昨天的query查看状态是normal,cdc.log一直在刷Unified Sorter: trying to create file backEnd,现在changefeed已经faild了,报这个
“message”: “[CDC:ErrGCTTLExceeded]the checkpoint-ts(436308863790350610) lag of the changefeed(simple-replication-task) has exceeded the GC TTL”

因为有一段时间有一张表删800万行数据,导致了有一个cdc节点负载过高,刷新到下游的速度跟不上,然后那个节点的checkpointTs一直没有变化,没有报错,有没有什么方法调优一下,另外上游到下游的网络带宽只有100M

v5.3.0 版本 cdc 无法支持大事务,建议使用 cdc 进行同步时事务大小不要超过 100mb 行,否则会严重拖慢同步进度,最终可能导致同步失败。
如果可以的话,可以考虑使用 v6.1.1 版本的 cdc,启用大事务拆分功能,可以有效解决上述问题。

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。