dm-work重试机制

【 TiDB 使用环境】生产环境
【 TiDB 版本】DM版本:v2.0.6
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
source端网络闪断后,dm-work丢失连接,不能拉取binlog,导致同步task退出。重启task后同步恢复。
【资源配置】
【附件:截图/日志/监控】
03:15:59 err read tcp 10.11.45.31:59352->10.9.42.85:3306: i/o timeout: connection was bad

03:16:57 unit process error。 err read tcp 10.11.45.31:59352-\u003e10.9.42.85:3306: i/o timeout: connection was bad

看官网文档中dm是有重试机制的,但没介绍详细内容。从日志看,重试了一分钟后就不再重试了。
有没有详细介绍重试机制的文档。

你的 TiDB 版本是什么版本?

DM 在同步数据时,会有重试机制来应对网络闪断等异常情况。在 DM 的配置文件中,可以通过设置 syncer.max-retry-countsyncer.retry-unit 来控制重试的次数和时间间隔。默认情况下,syncer.max-retry-count 为 10,syncer.retry-unit 为 1 秒,即在连接失败后,会在 1 秒后进行重试,最多重试 10 次。

如果在重试次数内连接恢复,DM 会自动恢复同步任务。如果重试次数用尽,同步任务会退出,需要手动重启任务。

你可以参考 DM 官方文档中的 同步任务配置 章节了解更多关于重试机制的内容。

版本太旧了,新版本会重试,旧版本不能重试需要重启
故障及处理方法 | PingCAP 文档中心

请看这个
https://docs.pingcap.com/zh/tidb/stable/optimistic-transaction#重试机制

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。