求教:单表有5000多个region,在遇到not_leader事件时,TiCDC是如何处理该error事件的?

【 TiDB 使用环境】生产环境
【 TiDB 版本】5.4.3
【复现路径】想问一下,单表5000多个region,任务中的error事件频率大约为一分钟6个,按我的理解,ticdc应该要重新拉取error事件中的region的cdc请求,拉取的位点应该要是checkpoint的位置。那么checkpoint是否会一直延迟在这里,因为刚刚error拉取的region还在增量扫阶段,位点更新不了,然后又有error事件,导致任务整体位点一直延迟。

因此有以下几点疑惑:

  • TiCDC是如何处理cdc的error事件的?

  • 如果任务延迟大于24小时,但还在safepoint范围内,增量扫阶段特别长,region也特别多,这个checkpoint的延迟一直卡在那,应该怎么处理?

1.获取error的话,应该是监控tikv集群中的变更,然后给到ticdc的工作节点中。
2.网络的话,应该是会等待,或重连;数据问题的话,应该是会重试或中断并记录。

ticdc 节点资源给大些,tikv region是不是 分布不均匀,热点等

感谢回复,增量扫阶段特别长的原因我定位到是因为tikv吐的慢,这个有什么办法可以优化一下速度不?
定位原因:我做了个纯记录,2000多个Region从开始订阅到接收到第一个resolveTs的时间差不多要20分钟,变更cdc数据量大约是500w,没有其他业务逻辑的影响了。这么判断一个就是吐的慢