ticdc 任务异常延迟

ticdc 4.0.9
今天中午突然任务延迟

重启cdc 后目前状态如下:

Starting component `ctl`: /home/tidb/.tiup/components/ctl/v4.0.9/ctl cdc changefeed list --pd=http://172.29.238.113:2379
[
  {
    "id": "kafka-task",
    "summary": {
      "state": "normal",
      "tso": 425906039086907405,
      "checkpoint": "2021-06-26 18:16:42.718",
      "error": null
    }
  }
]
--- 共三个节点
[
  {
    "id": "97fb515b-97a0-4ded-ae4a-8a56ea366f95",
    "is-owner": false,
    "address": "172.29.238.137:8300"
  },
  {
    "id": "b5ece9bd-f09e-4f85-97e1-6dec2c079524",
    "is-owner": false,
    "address": "172.29.238.131:8300"
  },
  {
    "id": "df39138e-c755-4d2c-89df-3133fac22f3a",
    "is-owner": true,
    "address": "172.29.238.81:8300"
  }
]

日志输出如下:
其中一个节点如下:


另外两个节点日志如下:

请问现在是正常的状态么 ?是否在追赶数据?
今天中午出现异常的时候日志大致如下

[2021/06/26 11:13:40.023 +08:00] [WARN] [client.go:1325] ["region not receiving resolved event from tikv or resolved ts is not pushing for too long time, try to resolve lock
"] [regionID=693438] [span="[7480000000000001ff6a5f72680000002bffffb1780000000000fa, 7480000000000001ff6a5f72680000002cff07a09b0000000000fa)"] [duration=21.2s] [resolvedTs=4
25899379606945820]

请问应该怎么处理比较合适,已经同步到下游kafak 的数据是否要重新全量同步一下。
我们这个任务已经跑了好久了

1 个赞

能否抓取下游 Kafka 的数据同步情况,进行一个简单对比。看是否只是延迟,同步还在继续进行。可以发一下 TiCDC 的完整日志报错。

没看到明显的error 日志,就是停止的那个时间点大量的 "region not receiving resolved event from tikv or resolved ts is not pushing“ 这种信息

我reload 了两三次后来好了。其中reload 的那次checkpoint 时间点变成了18:16 左右,然后日志里就一直刷我上面贴的info 信息。过了会我看还不行就又reload 了一次,后来就恢复了。到现在一直是正常的。

我再去看看 kafka 那边的情况是否有什么异常 。
– 我们这里两个集群在使用同一个kafka,两个一个集群的同步是正常的。

确认一下上游同步的增量数据中是否存在大事务的数据写入同步,造成写入存在堆积。https://docs.pingcap.com/zh/tidb/stable/troubleshoot-ticdc#ticdc-支持同步大事务吗有什么风险吗

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。