ticdc同步任务无报错,同步下游tso不推进

【 TiDB 使用环境】生产环境
【 TiDB 版本】ticdc
【复现路径】做过哪些操作出现的问题
ticdc checkpointTs 不向前推进,尝试pause resume 后未恢复,尝试使用tiup重启cdc组件后未恢复,清除同步任务重新创建同步任务也未恢复,看同步任务没有任务报错【遇到的问题:问题现象及影响】


![wecom-temp-438014f2f992dd70babfb317ba9711c3|690x149]
(upload://yXYwaNrxl4kpdqhxjYXtFoEaFc6.png)

【资源配置】
【附件:截图/日志/监控】

查下CDC 的日志看看,看看具体是什么错误

你查下集群是否有region 是无主的状态… 先要让集群的状态恢复才能用了

日志中描述了 region 的标识,你可以按照标识去查

work的

image
看了是有leader

image
有两个region是没有找到

那就是状态不一致了,这就是导致 cdc 不工作的原因了

先修复集群的状态吧,检查下region :empty,miss,peer 等相关的问题,得好好排查下

这种情况我怎么修复,有没参考文档链接

参考下这个吧
https://docs.pingcap.com/zh/tidb/stable/pd-control#region-check-miss-peer--extra-peer--down-peer--pending-peer--offline-peer--empty-region--hist-size--hist-keys

不知道集群经受了什么操作,导致结果是这样子的
只能尽量补齐,如果发现不是副本丢失,就是副本失效了,可以手动删除掉。(建议操作前备份)

集群现在是可用的状态,就业务上面有些并发写入,事务冲突比较多,不知道是不是这个有影响

谢谢大佬

后面重新备份导入,cdc同步了一些,现也不推进TSO,但报错不一样

ticdc 和 tidb 的大版本上兼容吧? 最好采用同一个版本…

日志上描述的错误点,基本上和 PD 有关系,没办法保存 checkpoint…

一样的,都是4.0.16

你好,看日志是上游主动关闭了连接,麻烦看下上游 tikv 的日志

[2022/11/16 10:58:09.759 +08:00] [Error] [router.rs:174] [“failed to send significant msg”] [msg=LeaderCallback(Callback::Read(…))]
[2022/11/16 10:59:46.419 +08:00] [Error] [router.rs:174] [“failed to send significant msg”] [msg=“CaptureChange { cmd: RegisterObserver { observe_id: ObserveID(2564262), region_id: 1255104, enabled: true }, region_epoch: conf_ver: 27247 version: 6891, callback: Callback::Read(…) }”]
[2022/11/16 11:00:50.238 +08:00] [Error] [router.rs:174] [“failed to send significant msg”] [msg=“CaptureChange { cmd: RegisterObserver { observe_id: ObserveID(2564263), region_id: 1247613, enabled: true }, region_epoch: conf_ver: 422 version: 7259, callback: Callback::Read(…) }”]
[2022/11/16 11:06:15.951 +08:00] [Error] [endpoint.rs:1113] [“cdc send scan event failed”] [req_id=7629]
[2022/11/16 11:06:16.083 +08:00] [Error] [endpoint.rs:1113] [“cdc send scan event failed”] [req_id=7631]
[2022/11/16 11:06:16.111 +08:00] [Error] [endpoint.rs:1113] [“cdc send scan event failed”] [req_id=7630]
[2022/11/16 11:13:01.586 +08:00] [Error] [endpoint.rs:1113] [“cdc send scan event failed”] [req_id=7944]
[2022/11/16 11:17:40.535 +08:00] [Error] [endpoint.rs:1113] [“cdc send scan event failed”] [req_id=12664]
[2022/11/16 11:17:40.649 +08:00] [Error] [endpoint.rs:1113] [“cdc send scan event failed”] [req_id=12655]


目前看还是有region_not_found 不知道是不是这个影响

你好,麻烦提供 ticdc 报错时间对应时间的 tikv 的完整的日志