TiCDC 同步任务推进可能停滞的bug有哪些?

【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.1.1
【遇到的问题:问题现象及影响】
TiCDC 同步任务推进可能停滞的bug有哪些?或者有哪些临时方案规避掉?升级到高版本的建议就不要提了,暂时升不了。
最近遇到一个case,ticdc 写kafka任务的checkpoint一直不推进,如下图:

cdc节点有大量的这种日志:
[2025/01/03 13:35:33.540 +08:00] [WARN] [region_worker.go:690] [“The resolvedTs is fallen back in kvclient”] [“Event Type”=RESOLVED] [resolvedTs=455051189323563011] [lastResolvedTs=455051190031351827] [regionID=137309641]

找到了几个bug,看起来不是很符合
1、 * 修复当上游 TiDB 实例意外退出时,TiCDC 同步任务推进可能停滞的问题 #3061
2、 * 修复当写入 Kafka 消息发生错误时,TiCDC 同步任务推进可能停滞的问题 #2978

你要是 5.1.1 就升级,6.5.12 应该会好很多

昨天我才做了ticdc的测试,也是一些问题没解决

遇到过就两个:

  1. 大事务处理 :TiCDC 对大事务(大小超过 5 GB)提供部分支持,可能导致主从同步延迟增高、同步任务报错 ErrBufferReachLimit 或内存溢出 (OOM)
  2. GC safepoint 阻塞:如果 TiCDC 同步任务停滞时间过长,会导致上游 TiKV 集群的 GC safepoint 长时间不推进,保留的旧数据版本过多,进而影响上游集群性能。如果同步任务延迟超过 gc-ttl 所设置的值,那么该同步任务就会进入 failed 状态,并报 ErrGCTTLExceeded 错误,无法被恢复,不再阻塞 GC safepoint 推进。

临时解决就是 在启动 TiCDC server 时指定 gc-ttl 的值和拆分大事务

2 个赞

v5.1.1
确实有点老,现在都8了,升一下吧,最起码也到6版本会好很多,到时候看看还存在不