ticdc延迟问题排查

请教下各位大佬,某个ticdc任务在一些时间段内延迟很高,要怎么排查


这个延迟的任务是tidb全量同步到另一个tidb集群,并且是跨了地区,从aws的美西2地区同步到华为云的新加坡地区,这2个地区我们是打通了内网的,互相访问没问题,带宽也很高,带宽限制不是问题
请问我要怎么排查这段时间是因为什么才导致的延迟,有没有办法可以缓解延迟,比如设置并发啥的

看下是否有大事务的提交

有没有看一下任务的日志文件,里面有什么错误和连续告警信息

一般高得都是有大事务,比如一个sqldelete大量数据,update大量数据

这个时间点是业务低峰期,不会有大事务的,有没有办法可以从配置上去改善他

其他任务是正常的,同步到表一样,只是下游不一样,同步到kafka的正常,同步到tidb的延迟

稳定复现么?
如果稳定定时复现,感觉是有什么作业 sql 导致的。

时不时复线,现在解决了,现在的延迟在10秒内,加了几个参数,per-table-memory-quota设置成200M,增加了单个事务包含的行数大小 max-txn-row 2000,还有worker-count 64

1 个赞

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。