ticdc同步异常owner降级为worker 重新选owner之后 还是不能继续同步

用的排除法 :
rules = [‘cbd_user_behavior_analysis.’,’!cbd_user_behavior_analysis.t_ssp_ad_log_error_202’,’!cbd_user_behavior_analysis.tbl_user_cheat_appopen’,’!cbd_user_beha
vior_analysis.tbl_effect_click_20210*’,’!cbd_user_behavior_analysis.tbl_effect_click_202110*’,’!cbd_user_behavior_analysis.tbl_new_ssp_ad_log_20210*’,’!cbd_user_b
ehavior_analysis.2021’,’!cbd_user_behavior_analysis.tbl_new_ssp_ad_log_20220424’,’!cbd_user_behavior_analysis.tbl_new_ssp_ad_log_20220508’]

能把 每个changefeed同步的表,拆小一些,再试试,能正常同步不?

ht这个我再排除一下部分表试试看看 下游总共就400个表 。 应该不是表个数的问题吧。

有个woker节点报错,该节点下线后恢复正常。

[2022/05/19 17:59:55.306 +08:00] [INFO] [etcd_worker.go:458] ["[etcd worker] put key"] [key=/tidb/cdc/task/position/89f9dc99-472f-4399-9c66-93553145d187/cbd-user-behavior-analysis-task] [value="{\"checkpoint-ts\":433303111049936914,\"resolved-ts\":433303111049936914,\"count\":0,\"error\":null}"]
[2022/05/19 17:59:55.306 +08:00] [INFO] [etcd_worker.go:461] ["[etcd worker] ============State Commit============="] [committed=false]
[2022/05/19 17:59:55.306 +08:00] [INFO] [etcd_worker.go:465] ["[etcd worker] ==========Failed Etcd Txn Cmps=========="]
[2022/05/19 17:59:55.306 +08:00] [INFO] [etcd_worker.go:468] ["[etcd worker] compare"] [cmp="target:MOD key:\"/tidb/cdc/task/workload/89f9dc99-472f-4399-9c66-93553145d187/cbd-user-behavior-analysis-task-ht\" mod_revision:2051230323 "]
[2022/05/19 17:59:55.306 +08:00] [INFO] [etcd_worker.go:468] ["[etcd worker] compare"] [cmp="target:MOD key:\"/tidb/cdc/task/status/89f9dc99-472f-4399-9c66-93553145d187/cbd-user-behavior-analysis-task-ht\" mod_revision:2051242808 "]
[2022/05/19 17:59:55.306 +08:00] [INFO] [etcd_worker.go:468] ["[etcd worker] compare"] [cmp="target:MOD key:\"/tidb/cdc/task/position/89f9dc99-472f-4399-9c66-93553145d187/cbd-user-behavior-analysis-task-ht\" mod_revision:2051241481 "]
[2022/05/19 17:59:55.306 +08:00] [INFO] [etcd_worker.go:468] ["[etcd worker] compare"] [cmp="target:MOD key:\"/tidb/cdc/task/workload/89f9dc99-472f-4399-9c66-93553145d187/cbd-user-behavior-analysis-task\" mod_revision:2051230323 "]
[2022/05/19 17:59:55.307 +08:00] [INFO] [etcd_worker.go:468] ["[etcd worker] compare"] [cmp="target:MOD key:\"/tidb/cdc/task/status/89f9dc99-472f-4399-9c66-93553145d187/cbd-user-behavior-analysis-task\" mod_revision:2051242789 "]
[2022/05/19 17:59:55.307 +08:00] [INFO] [etcd_worker.go:468] ["[etcd worker] compare"] [cmp="target:MOD key:\"/tidb/cdc/task/position/89f9dc99-472f-4399-9c66-93553145d187/cbd-user-behavior-analysis-task\" mod_revision:2051241481 "]
[2022/05/19 17:59:55.307 +08:00] [INFO] [etcd_worker.go:468] ["[etcd worker] compare"] [cmp="target:VALUE key:\"/tidb/cdc/meta/ticdc-delete-etcd-key-count\" value:\"503\" "]
[2022/05/19 17:59:55.307 +08:00] [INFO] [etcd_worker.go:471] ["[etcd worker] ============End Failed Etcd Txn Cmps============="]
[2022/05/19 17:59:56.294 +08:00] [WARN] [client.go:247] ["etcd client outCh blocking too long, the etcdWorker may be stuck"] [duration=24.031045258s] [role=processor]
[2022/05/19 17:59:57.294 +08:00] [WARN] [client.go:247] ["etcd client outCh blocking too long, the etcdWorker may be stuck"] [duration=25.030605832s] [role=processor]
[2022/05/19 17:59:58.294 +08:00] [WARN] [client.go:247] ["etcd client outCh blocking too long, the etcdWorker may be stuck"] [duration=26.03063604s] [role=processor]

这种某个ticdc异常在grafana里面 怎么体现出来 能不能通过监控报警出来

除了grafana 可以本地使用脚步检查 通过监控告警

最好是在prometheus 上有重要的异常节点报警 ,这样 报警系统就可以快速报警 。 不然我们给你们抓取ticdc的grafana 监控图 ,你们也不方便定位问题 。

再另找个机器 起cdc worker节点,仍然报错。目前这个cdc集群 不能添加新节点
ticdc.log.gz (819.2 KB)

cdc 问题排查到了吗?

数据同步正常,只是 添加新节点失败吗?

添加新节点 就会报之前的错误,循环 etcd txn 失败,然后不能同步数据。只有把新节点 再踢出去 同步恢复正常

从 log 的信息来看,是 cdc 启动 changefeed 后向 etcd 提交数据一直不成功导致整个同步任务卡住。
请问这个新加的节点就是之前出问题的 owner 节点吗? 和 PD 间的网络通信什么的都是正常吗?
有没有集群在出现这个问题的时候其他节点的 log, 尤其的 owner 的 log
另外 pd 的 log 是否也能上传上来?

1、新加节点是新机器,不是出问题的节点
2、pd 网络通信正常
3、owner日志
owner.log.gz (146.8 KB)

4、pd 日志
pdleader.log.gz (393.7 KB)

可以看到 pd 日志中有很多 heartbeat 发送失败的情况,首先先查看 tikv 状态和日志看是否有异常,如果没有问题就大可能是 pd 网络通信的问题了。owner 日志暂时看不出什么异常。
另外 cdc update etcd failed 的情况可以开 debug 看下更详细是什么错误。

该主题在最后一个回复创建后60天后自动关闭。不再允许新的回复。