TiCDC任务无法正常同步(etcd client outCh blocking too long, the etcdWorker may be stuck)

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】v5.4.0
【复现路径】做过哪些操作出现的问题

【遇到的问题:问题现象及影响】
TiCDC任务延迟重启之后,cdc的日志里一直报
[2023/12/17 10:19:29.997 +08:00] [WARN] [client.go:226] ["etcd client outCh blocking too long, the etcdWorker may be stuck"] [duration=1m31.999185773s]

删除任务重新创建也是一样报错,重启cdc和pd节点未恢复
【资源配置】
16核64GB
【附件:截图/日志/监控】
最早大概是6:45左右,CDC退出了


目前删掉任务重建还是不可以

看网上说这是一个bug,求助各位大佬,短时间应该如何处理呢?
https://github.com/pingcap/tiflow/issues/4987

目前集群访问正常吗,延迟和qps确认一下。

看报错的信息,可能是pd etcd 这块有一些问题。

确认一下 pd 监控面板有没有异常,还有到 ticdc 监控面板查看一下 etcd 的使用空间情况。

ticdc:



pd:




貌似这里少一个节点,但实际显示是up状态


访问应该正常的,目前只有ticdc有问题


之前秒建一个任务,现在要卡3分钟,不过现在重建任务可以起来了,日志里还是那个报错:etcd client outCh blocking too long, the etcdWorker may be stuck

用ticdc遇到很多问题,这个还是第一次遇到,根本找不到原因,现在已经恢复了,我们现在5.4版本,升级到5.4.3会好一点吗?

线上还有一个5.4.3,6.1.0的,版本更新太快了,新版本也可能有新问题,我们用的比较多的还是ticdc组件

ticdc 5.x ,6.x , 7.x 跨版本的能力就差异比较大,小版本的升级会修复一些bug的

有条件的话,建议升级小版本… 可以避免一些bug引发的问题

目前 6.1.x 的最新版本的 ticdc 的组件会比较稳定,修复了比较关键的几个bug

嗯嗯,准备下周这个升级到5.4.3,5.4的最后一个小版本,看这个pr已经合并修复了,https://github.com/pingcap/tiflow/pull/4996

是有一些etcd 相关警告,但是cdc进程崩溃是因为收到了退出信号吧

感觉象是ETCD选举出现异常

确实,低版本好多莫名其妙的问题,我也是升级解决的

升级下再试试,我记得有个小问题也是升级的

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。