求教：单表有5000多个region，在遇到not_leader事件时，TiCDC是如何处理该error事件的？

迷人的Ti · 2023 年11 月 20 日 06:16

【 TiDB 使用环境】生产环境
【 TiDB 版本】5.4.3
【复现路径】想问一下，单表5000多个region，任务中的error事件频率大约为一分钟6个，按我的理解，ticdc应该要重新拉取error事件中的region的cdc请求，拉取的位点应该要是checkpoint的位置。那么checkpoint是否会一直延迟在这里，因为刚刚error拉取的region还在增量扫阶段，位点更新不了，然后又有error事件，导致任务整体位点一直延迟。

因此有以下几点疑惑：

TiCDC是如何处理cdc的error事件的？
如果任务延迟大于24小时，但还在safepoint范围内，增量扫阶段特别长，region也特别多，这个checkpoint的延迟一直卡在那，应该怎么处理？

大飞哥online · 2023 年11 月 20 日 12:52

1.获取error的话，应该是监控tikv集群中的变更，然后给到ticdc的工作节点中。
2.网络的话，应该是会等待，或重连；数据问题的话，应该是会重试或中断并记录。

大飞哥online · 2023 年11 月 20 日 13:05

ticdc 节点资源给大些，tikv region是不是分布不均匀，热点等

迷人的Ti · 2023 年11 月 22 日 07:27

感谢回复，增量扫阶段特别长的原因我定位到是因为tikv吐的慢，这个有什么办法可以优化一下速度不？
定位原因：我做了个纯记录，2000多个Region从开始订阅到接收到第一个resolveTs的时间差不多要20分钟，变更cdc数据量大约是500w，没有其他业务逻辑的影响了。这么判断一个就是吐的慢