TICDC 新增任务后,导致已有的任务卡主

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】v6.5.6
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
cdc 部署了 3 个节点,实际运行的任务数量在 1000+,通过 tiup cdc新提交一个任务(tidb 的表推送到 kafka),会造成已有的任务卡主,grafana 监控明显看到 changefeed checkpoint lag 开始升高,查询 cdc log 会有大量
[2025/01/02 18:38:25.708 +08:00] [WARN] [server.go:817] [“Topic congested because no handler has been registered”] [topic=changefeed/default/xxxxxx/agent]
[2025/01/02 18:17:12.146 +08:00] [INFO] [client.go:300] [“peer-to-peer client retrying”] [topic=changefeed/default/xxxxx/agent] [fromSeq=1]
[2025/01/03 17:29:08.467 +08:00] [WARN] [replication_manager.go:587] [“schedulerv3: cannot advance checkpoint since missing table”] [namespace=default] [changefeed=kafka-localtest-00-test1] [tableID=1296953]

现象描述如上

做过尝试:重启 cdc 可以解决卡主的问题,但提交一个新任务,还是会有上面卡主的问题
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】

schedulerv3: cannot advance checkpoint since missing table

看这个错误,是不是有表被drop 了,所以没办法推进? 卡住?

然后刚好在分发和订阅这个被drop table…

表还在,而且能从select * from INFORMATION_SCHEMA.TABLES 找到

感觉更像功能上的一个bug问题。

ticdc和dm还挺难操控的

2 个赞

有机会就升级小版本到最新吧,不要让已知的一些问题,折磨自己…

你做的是301 里面的实全吗