急~在线等~~！！！！！在导入400w条数据后，cdc数据就不再同步

xmlianfeng · 2021 年7 月 21 日 06:50

版本：5.0.3
前面同步正常，在研发人员写入400W条数后同步停止，checkpoint一直停留在12：11分，
看了下表大小也才170M，咋会这样。。。
下游为mysql

"summary": {
  "state": "normal",
  "tso": 426466525331849259,
  "checkpoint": "2021-07-21 12:11:28.064",
  "error": null
}

cdc节点日志如下
1.txt (166.8 KB)

急~在线等！。。

spc_monkey · 2021 年7 月 21 日 07:27

1、查看 cdc 的监控，resloved tso 看看又没有变化
2、查看 cdc 的数据目录下，空间使用有没有变化
3、查看 cdc 的日志，有无异常

spc_monkey · 2021 年7 月 21 日 07:30

看日志无异常，大概率是由于上游写入量太大，导致 cdc 内部工作较重（比如排序中），可以看看 cdc 的内存使用情况（监控）

xmlianfeng · 2021 年7 月 21 日 07:35

1、resloved tso 没有变化
2、cdc数据目录使用没有变化
3、cdc的日志在上面已经有提供过了，感觉没啥异常
4. cdc的内存使用总数据才170M， cdc内存使用6G左右，后面就时没啥变动了。

spc_monkey · 2021 年7 月 21 日 07:43

持续时间多久了a ，建议给一下监控把：[FAQ] Grafana Metrics 页面的导出和导入

xmlianfeng · 2021 年7 月 21 日 07:49

快4个小时了。。

xmlianfeng · 2021 年7 月 21 日 07:55

xmlianfeng · 2021 年7 月 21 日 08:15

日志如上，拜托了~

spc_monkey · 2021 年7 月 21 日 08:16

收到

spc_monkey · 2021 年7 月 21 日 08:17

你现在的 cdc 有几个实例啊

xmlianfeng · 2021 年7 月 21 日 08:22

目前task 只有一个 cdc节点有4个，只同步3张表，我有怀疑是不是我单事务太大导致的他卡住。cdc有这方面的参考数值吗？

spc_monkey · 2021 年7 月 21 日 08:25

你的监控显示，其他几个 changefeed 状态有问题，要不你先检查一下（如果是不用的，可以删除掉）

xmlianfeng · 2021 年7 月 21 日 08:27

这几个我在ctl 里面已经看不到了已经删除了

spc_monkey · 2021 年7 月 21 日 08:48

能不能 cdc 的日志（所有实例的日志都给一下吗）现在还是不同状态是吧（你的 checkpoint 看起来时间不是12点的）

xmlianfeng · 2021 年7 月 21 日 09:13

上面的截图是我后面重新做的。为了验证是不是那个导入400万数据卡住的原因，现在确实是因为他才卡住的
这个是这个时间段的日志
cdc_log.rar (39.0 KB)

spc_monkey · 2021 年7 月 21 日 09:31

问一下，你在 12:11 之后，是又做什么操作了吗？（另外，我看 cdc 的日志，大部分是到 16:00 之前的，以后是没有日志了吗？现在的 cdc日志内容是什么？）

xmlianfeng · 2021 年7 月 21 日 09:46

12:11 之后在14点左右增加过

worker-count=16&max-txn-row=2000

这个配置
16点之后就做了次新的同步，其他没有了，目前新的同步也处于没同步的状态
16点之后的日志我重新提交下，grafana的也一起

spc_monkey · 2021 年7 月 21 日 10:32

添加个参数： per-table-memory-quota 设置为 6M 吧（和其他修改其他参数一样）

xmlianfeng · 2021 年7 月 21 日 10:38

max-txn-row=5000&worker-count=32&per-table-memory-quota=6M 这样加的没错把？

spc_monkey · 2021 年7 月 21 日 10:49

不是，这个是 cdc-server 的参数，需要重启 server ，tiup edit-config 就行，per-table-memory-quota: