ticdc同步异常owner降级为worker 重新选owner之后还是不能继续同步

heming · 2022 年5 月 19 日 08:52

用的排除法：
rules = [‘cbd_user_behavior_analysis.’,’!cbd_user_behavior_analysis.t_ssp_ad_log_error_202’,’!cbd_user_behavior_analysis.tbl_user_cheat_appopen’,’!cbd_user_beha
vior_analysis.tbl_effect_click_20210*’,’!cbd_user_behavior_analysis.tbl_effect_click_202110*’,’!cbd_user_behavior_analysis.tbl_new_ssp_ad_log_20210*’,’!cbd_user_b
ehavior_analysis.2021’,’!cbd_user_behavior_analysis.tbl_new_ssp_ad_log_20220424’,’!cbd_user_behavior_analysis.tbl_new_ssp_ad_log_20220508’]

muliping · 2022 年5 月 19 日 08:57

能把每个changefeed同步的表，拆小一些，再试试，能正常同步不？

heming · 2022 年5 月 19 日 08:58

ht这个我再排除一下部分表试试看看下游总共就400个表。应该不是表个数的问题吧。

muliping · 2022 年5 月 19 日 10:41

有个woker节点报错,该节点下线后恢复正常。

[2022/05/19 17:59:55.306 +08:00] [INFO] [etcd_worker.go:458] ["[etcd worker] put key"] [key=/tidb/cdc/task/position/89f9dc99-472f-4399-9c66-93553145d187/cbd-user-behavior-analysis-task] [value="{\"checkpoint-ts\":433303111049936914,\"resolved-ts\":433303111049936914,\"count\":0,\"error\":null}"]
[2022/05/19 17:59:55.306 +08:00] [INFO] [etcd_worker.go:461] ["[etcd worker] ============State Commit============="] [committed=false]
[2022/05/19 17:59:55.306 +08:00] [INFO] [etcd_worker.go:465] ["[etcd worker] ==========Failed Etcd Txn Cmps=========="]
[2022/05/19 17:59:55.306 +08:00] [INFO] [etcd_worker.go:468] ["[etcd worker] compare"] [cmp="target:MOD key:\"/tidb/cdc/task/workload/89f9dc99-472f-4399-9c66-93553145d187/cbd-user-behavior-analysis-task-ht\" mod_revision:2051230323 "]
[2022/05/19 17:59:55.306 +08:00] [INFO] [etcd_worker.go:468] ["[etcd worker] compare"] [cmp="target:MOD key:\"/tidb/cdc/task/status/89f9dc99-472f-4399-9c66-93553145d187/cbd-user-behavior-analysis-task-ht\" mod_revision:2051242808 "]
[2022/05/19 17:59:55.306 +08:00] [INFO] [etcd_worker.go:468] ["[etcd worker] compare"] [cmp="target:MOD key:\"/tidb/cdc/task/position/89f9dc99-472f-4399-9c66-93553145d187/cbd-user-behavior-analysis-task-ht\" mod_revision:2051241481 "]
[2022/05/19 17:59:55.306 +08:00] [INFO] [etcd_worker.go:468] ["[etcd worker] compare"] [cmp="target:MOD key:\"/tidb/cdc/task/workload/89f9dc99-472f-4399-9c66-93553145d187/cbd-user-behavior-analysis-task\" mod_revision:2051230323 "]
[2022/05/19 17:59:55.307 +08:00] [INFO] [etcd_worker.go:468] ["[etcd worker] compare"] [cmp="target:MOD key:\"/tidb/cdc/task/status/89f9dc99-472f-4399-9c66-93553145d187/cbd-user-behavior-analysis-task\" mod_revision:2051242789 "]
[2022/05/19 17:59:55.307 +08:00] [INFO] [etcd_worker.go:468] ["[etcd worker] compare"] [cmp="target:MOD key:\"/tidb/cdc/task/position/89f9dc99-472f-4399-9c66-93553145d187/cbd-user-behavior-analysis-task\" mod_revision:2051241481 "]
[2022/05/19 17:59:55.307 +08:00] [INFO] [etcd_worker.go:468] ["[etcd worker] compare"] [cmp="target:VALUE key:\"/tidb/cdc/meta/ticdc-delete-etcd-key-count\" value:\"503\" "]
[2022/05/19 17:59:55.307 +08:00] [INFO] [etcd_worker.go:471] ["[etcd worker] ============End Failed Etcd Txn Cmps============="]
[2022/05/19 17:59:56.294 +08:00] [WARN] [client.go:247] ["etcd client outCh blocking too long, the etcdWorker may be stuck"] [duration=24.031045258s] [role=processor]
[2022/05/19 17:59:57.294 +08:00] [WARN] [client.go:247] ["etcd client outCh blocking too long, the etcdWorker may be stuck"] [duration=25.030605832s] [role=processor]
[2022/05/19 17:59:58.294 +08:00] [WARN] [client.go:247] ["etcd client outCh blocking too long, the etcdWorker may be stuck"] [duration=26.03063604s] [role=processor]

heming · 2022 年5 月 20 日 01:39

这种某个ticdc异常在grafana里面怎么体现出来能不能通过监控报警出来

xiaohetao · 2022 年5 月 20 日 03:23

除了grafana 可以本地使用脚步检查通过监控告警

heming · 2022 年5 月 20 日 03:24

最好是在prometheus 上有重要的异常节点报警，这样报警系统就可以快速报警。不然我们给你们抓取ticdc的grafana 监控图，你们也不方便定位问题。

foxchan · 2022 年5 月 22 日 01:57

再另找个机器起cdc worker节点，仍然报错。目前这个cdc集群不能添加新节点
ticdc.log.gz (819.2 KB)

xiaohetao · 2022 年5 月 23 日 02:20

cdc 问题排查到了吗？

muliping · 2022 年5 月 24 日 07:02

数据同步正常，只是添加新节点失败吗？

foxchan · 2022 年5 月 24 日 07:04

添加新节点就会报之前的错误，循环 etcd txn 失败，然后不能同步数据。只有把新节点再踢出去同步恢复正常

sdojjy · 2022 年5 月 26 日 07:26

从 log 的信息来看，是 cdc 启动 changefeed 后向 etcd 提交数据一直不成功导致整个同步任务卡住。
请问这个新加的节点就是之前出问题的 owner 节点吗？和 PD 间的网络通信什么的都是正常吗？
有没有集群在出现这个问题的时候其他节点的 log，尤其的 owner 的 log
另外 pd 的 log 是否也能上传上来？

foxchan · 2022 年5 月 27 日 01:12

1、新加节点是新机器，不是出问题的节点
2、pd 网络通信正常
3、owner日志
owner.log.gz (146.8 KB)

4、pd 日志
pdleader.log.gz (393.7 KB)

Min_Chen · 2022 年5 月 27 日 03:57

可以看到 pd 日志中有很多 heartbeat 发送失败的情况，首先先查看 tikv 状态和日志看是否有异常，如果没有问题就大可能是 pd 网络通信的问题了。owner 日志暂时看不出什么异常。
另外 cdc update etcd failed 的情况可以开 debug 看下更详细是什么错误。

system · 2022 年8 月 4 日 06:21

该主题在最后一个回复创建后60天后自动关闭。不再允许新的回复。

ticdc同步异常owner降级为worker 重新选owner之后 还是不能继续同步

ticdc同步异常owner降级为worker 重新选owner之后还是不能继续同步