ticdc 不推进 5.4.1版本,我们是从5,2 升级到5.4.1的版本依旧有问题

日志存在告警

image

是不是有一个超大的事物没处理完, 之前看到个帖子说是因为源有批量删除导致ticdc卡住了

1 个赞

这个问题我们也遇到,ticdc都不敢用了

根本没有pumper和 drainer 稳定 还是官方推荐的 已经升级到5.4.1

1 个赞

麻烦提供下卡住前 30 分钟和之后 30 分钟的 TiCDC,TiKV 和 TiDB 监控。

凌晨3点的时候 确认有点高峰

性能也有高峰, 应该是有后台一些任务 夜间任务导致的

我之前的4.0.6版本也是这个问题

目前我们升级到了 5.4.1 也依旧有这个问题。

可以导出这段时间的 TiDB、TiKV-Details、TiCDC 监控快照看看
https://docs.pingcap.com/zh/tidb/stable/exporting-grafana-snapshots

1 个赞

看起来11点左右就自动恢复了?

是的 隔了几个小时以后 cdc的checkpoint正常了 任务也没有延迟

导出是的2022-07-08 04-05的数据。Downloads.zip (2.0 MB)

估计只能尽量优化SQL,把大事务分解成小事务

已经提交监控数据了 请帮助在分析下

根据这两个截图,猜测可能是以下情况中的某一个导致的

  • 上游 TiDB 有一个执行时间很长的事务,该事务会导致 TiCDC 无法推进 checkpoint。
  • 上游 TiDB 执行了一个大事务,TiCDC 处理大事务的效率较低,在处理期间 TiCDC 无法推进 checkpoint。
  • 上游 TiDB 或者 TiKV 出现了非预期宕机,导致有事务锁残留,残留锁也会导致 TiCDC 无法推进 checkpoint。

需要你们结合上游业务具体分析,如果是前两者则需要调整业务写入模式,尽量采用小事务写入,如果是最后一个需要提供更多的监控和日志做进一步分析。

这个在夜间确实有大的事务 ,但这个是业务需求 夜间的作业。 ticdc在那个 版本说这个问题解决了 但现在看 升级了5的最新版本还是无法使用。 drainer pumper 目前没有这个问题

cdc 确实难用

1 个赞

6.2 版本的 cdc 提供了大事务拆分功能,如果对事务的原子性没有要求,可以考虑使用 6.2 的 cdc,并且启用事务拆分功能,可以有效解决以上问题。

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。