Tidb 之间cdc同步延迟点位不推进

xmlianfeng · 2025 年6 月 10 日 06:27

1.背景：
准备从6.5.3升级到8.5.1，采用新建集群迁移数据方式升级。
由于无法用BR，使用 Dumpling + Lightning（local） + CDC。
同步异常得库表平均5分钟更新一次，一次几十至上百万不等。该集群有将部份表通过cdc同步至kafka，包含频繁写得表，任务正常。

上下游cpu及内存磁盘均在正常范围内。

2.问题现象：
从6.5.3 cdc至 8.5.1集群时，cdc点位一直不推进，延迟越来越大，下游有数据进入。最长任务持续12小时未推进。

puller resolved 12.7K
puller kv 1.2k
Sorter 0

3.目前尝试得调整：
3.1有效果，但没有达到目标
将库表进行任务拆分，部分表任务还是卡住。
3.2无明细效果
per-table-memory-quota 调整至1G
sink worker-count 调整至 512

这有什么办法可以进一步排查吗？

wenyi · 2025 年6 月 10 日 06:50

cdc同步至kafka，你用CDC tidb直接到tidb不好吗，为什么用kafka？

wenyi · 2025 年6 月 10 日 06:52

还有，你源端是6.5.3版本，目的端是8.5.1版本，TICDC用什么版本？

xmlianfeng · 2025 年6 月 10 日 06:53

那是别得业务系统用到得数据，他们自行消费kafka，我是想说明这个可以被cdc同步出去。
源是6.5.3，cdc也是6.5.3

TiDBer_wk · 2025 年6 月 10 日 09:30

看下 resolved ts lag 和 checkpoint ts lag 呢

xmlianfeng · 2025 年6 月 10 日 09:35

小龙虾爱大龙虾 · 2025 年6 月 10 日 09:41

你单独 cdc 组件通过 patch 的方式升级到 v6.5.12 就好了，低版本是有些 bug 会卡住，你可以看发版记录

xmlianfeng · 2025 年6 月 10 日 11:07

可以这样玩？我试试

cchouqiang · 2025 年6 月 17 日 03:09

可以单独升级cdc组件