TICDC单个表同步异常，求救！！！

老龚caiji · 2023 年3 月 14 日 12:24

【 TiDB 使用环境】生产环境
【 TiDB 版本】v4.0.9
【复现路径】做过哪些操作出现的问题
br每月1号全量备份数据，每天增量备份数据。
br 先restore 1 号的全量数据到新tidb集群，再restore当天的增量数据。
cdc 配置基于当天的增量数据 TSO 做同步数据。

【遇到的问题：问题现象及影响】
有1张表（这张表特别大，大概有60亿条数据）同步状态异常，好像其他的表看起来正常

cdc日志一直在报这种信息：

我想问下这是什么情况？增量时间是今天的凌晨0点，到现在也就20个小时呀，怎么会有53.2 年啊？

tidb狂热爱好者 · 2023 年3 月 14 日 12:49

系统时间是预计得同步52年？

老龚caiji · 2023 年3 月 14 日 13:00

看着像是这个意思，我猜可能是那个表太大了，老集群性能又不太好。。
但也不至于要53年啊，我想不明白，也不知道现在杂处理
性能再弱也是线上正在用的集群，只落后1天不到的数据。这53年是杂出来的啊
如果是有问题，那应该直接报错退出啊， task的状态一直是normal状态~~~

sdojjy · 2023 年3 月 14 日 13:12

应该是 metrics 有异常吧，取了一个 0 时间，猜测是 1970 + 53 = 2023

老龚caiji · 2023 年3 月 14 日 13:17

这个需要怎么确认一下呢

sdojjy · 2023 年3 月 14 日 13:19

这个图上就有同步到了哪个时间点了
不过你 cdc 的版本比较早了，可能还有其他未知的 bug

老龚caiji · 2023 年3 月 14 日 13:22

这个时间就是最开始的时间，就是我恢复增量的时间，最开始就这样没变过

CuteRay · 2023 年3 月 15 日 01:21

看一下你这几台机器的时间，你这一批机器是用的同一个ntp服务器吗？

老龚caiji · 2023 年3 月 15 日 01:29

是的，新老集群都是chronyd同步的本地ntp还有aliyun ntp

liuis · 2023 年3 月 15 日 01:31

mtric异常吧

老龚caiji · 2023 年3 月 15 日 01:37

你是说prometheus metric监控取值异常吗？那怎么看实际的状态是否正常呢

老龚caiji · 2023 年3 月 15 日 01:48

服务器为新机器：配置为48c 256g，服务器内存剩余还挺多，cdc进程才吃了100G内存。

以下为grafana的一些截图：

老龚caiji · 2023 年3 月 15 日 01:53

以下是我cdc同步的配置文件和命令：

CuteRay · 2023 年3 月 15 日 02:41

cdcctl 查询出来的任务状态如何呢

sdojjy · 2023 年3 月 15 日 02:50

现在 cdc log 里还有大量的 warning 吗？
grafana 可以用 [FAQ] Grafana Metrics 页面的导出和导入这里面提到的方法导出一下

老龚caiji · 2023 年3 月 15 日 03:17

还是和上面的截图一样，没变化，状态也是normal

asddongmen · 2023 年3 月 15 日 03:18

你好，建议使用 filter rule 把这张表单独使用一个 changefeed 进行同步，剩余其他的表用另一个 changefeed。
这样做可以让其他表的同步进度得以推进，并且减少同一个 changefeed 内多表之间资源的竞争。
麻烦提供一下上游 tikv 集群的 region 数量。

老龚caiji · 2023 年3 月 15 日 03:19

是的，还有大量warn日志

老龚caiji · 2023 年3 月 15 日 03:23

1的意思是，停掉当前task，重新做是吗？

asddongmen · 2023 年3 月 15 日 03:55

嗯对，你把 CheckpointTs 记录下来，重新创建两个任务。