TiCDC 同步任务推进可能停滞的bug有哪些？

DBRE · 2025 年1 月 3 日 06:04

【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.1.1
【遇到的问题：问题现象及影响】
TiCDC 同步任务推进可能停滞的bug有哪些？或者有哪些临时方案规避掉？升级到高版本的建议就不要提了，暂时升不了。
最近遇到一个case，ticdc 写kafka任务的checkpoint一直不推进，如下图：

cdc节点有大量的这种日志：
[2025/01/03 13:35:33.540 +08:00] [WARN] [region_worker.go:690] [“The resolvedTs is fallen back in kvclient”] [“Event Type”=RESOLVED] [resolvedTs=455051189323563011] [lastResolvedTs=455051190031351827] [regionID=137309641]

找到了几个bug，看起来不是很符合
1、 * 修复当上游 TiDB 实例意外退出时，TiCDC 同步任务推进可能停滞的问题 #3061
2、 * 修复当写入 Kafka 消息发生错误时，TiCDC 同步任务推进可能停滞的问题 #2978

小龙虾爱大龙虾 · 2025 年1 月 3 日 06:20

你要是 5.1.1 就升级，6.5.12 应该会好很多

小学童啊 · 2025 年1 月 3 日 07:20

昨天我才做了ticdc的测试，也是一些问题没解决

TiDBer_小杰 · 2025 年1 月 3 日 13:10

遇到过就两个：

大事务处理 ：TiCDC 对大事务（大小超过 5 GB）提供部分支持，可能导致主从同步延迟增高、同步任务报错 ErrBufferReachLimit 或内存溢出 (OOM)
GC safepoint 阻塞：如果 TiCDC 同步任务停滞时间过长，会导致上游 TiKV 集群的 GC safepoint 长时间不推进，保留的旧数据版本过多，进而影响上游集群性能。如果同步任务延迟超过 gc-ttl 所设置的值，那么该同步任务就会进入 failed 状态，并报 ErrGCTTLExceeded 错误，无法被恢复，不再阻塞 GC safepoint 推进。

临时解决就是在启动 TiCDC server 时指定 gc-ttl 的值和拆分大事务

kang · 2025 年1 月 4 日 11:19

v5.1.1
确实有点老，现在都8了，升一下吧，最起码也到6版本会好很多，到时候看看还存在不