ticdc同步数据很慢

【 TiDB 使用环境】生产环境
【 TiDB 版本】6.5.0
【遇到的问题:问题现象及影响】
因为我们公司要从阿里云迁移到另外一个云服务商,所以数据库要进行迁移
我先使用BR做了全量迁移,然后再使用tidb cdc做增量数据。做增量的时候我这里速度非常慢的情况,几个小时只迁移了几分钟的数据,checkpoint一直停留在昨天的时间点,但是任务是正常的,如图:


目标端tidb集群也只有几百的qps进数据,很慢,麻烦大佬帮忙看看。

【资源配置】
源端配置:


cdc: 16C32G 500G SSD * 1
tidb: 16C32G 500G SSD * 3
kv: 24C48G 1.3T SSD * 3

目标端配置:


tidb: 32C64G 500G SSD * 2
tikv: 32C 64G 1.5T SSD * 3

目标端机器性能较好,而且是新建的集群。应该没有写入性能问题。

公网迁移!!!,没办法,跨云服务商了,是不是这个原因呢,我看文档理由提到有这个因素

ticdc 接入 prometheus没? 通过 ticdc 的一些观测参数,比较容易判断

  1. 上游问题?
  2. 下游问题?
  3. 网络瓶颈?

如果有怀疑的话,可以查阅下 ticdc 的日志,是否有 warn 或者 error…

ticdc 日志没有太多明显慢信息,下游网络是公网200M宽带,上游机器负载感觉也还行

公网迁移除了带宽,还有延迟,丢包率等等因素都会影响,尤其是网络质量不好,赶上重传的话,性能将会非常差甚至不可用。你可以拿 iperf 测试下两边网络质量 。

你好,请问问题解决了吗?你可以尝试:

  1. 检查 ticdc 机器到目标 tidb 集群机器的网络延迟。
  2. 如果网络延迟没有问题,能不能麻烦上传 ticdc 的日志和 Grafana 监控面板中 TiCDC Dashboard 中的 Sink 和 Dataflow 的相关指标,以便帮助我们排查问题。
  3. 如果网络延迟有问题,可以考虑把 TiCDC server 部署到目标 TiDB 集群的环境中,这样能够一定程度缓解网络延迟造成的同步缓慢问题。