dm-work重试机制

liujia · 2023 年5 月 12 日 08:25

【 TiDB 使用环境】生产环境
【 TiDB 版本】DM版本：v2.0.6
【复现路径】做过哪些操作出现的问题
【遇到的问题：问题现象及影响】
source端网络闪断后，dm-work丢失连接，不能拉取binlog，导致同步task退出。重启task后同步恢复。
【资源配置】
【附件：截图/日志/监控】
03:15:59 err read tcp 10.11.45.31:59352->10.9.42.85:3306: i/o timeout: connection was bad

03:16:57 unit process error。 err read tcp 10.11.45.31:59352-\u003e10.9.42.85:3306: i/o timeout: connection was bad

看官网文档中dm是有重试机制的，但没介绍详细内容。从日志看，重试了一分钟后就不再重试了。
有没有详细介绍重试机制的文档。

Billmay表妹 · 2023 年5 月 25 日 06:58

你的 TiDB 版本是什么版本？

DM 在同步数据时，会有重试机制来应对网络闪断等异常情况。在 DM 的配置文件中，可以通过设置 syncer.max-retry-count 和 syncer.retry-unit 来控制重试的次数和时间间隔。默认情况下，syncer.max-retry-count 为 10，syncer.retry-unit 为 1 秒，即在连接失败后，会在 1 秒后进行重试，最多重试 10 次。

如果在重试次数内连接恢复，DM 会自动恢复同步任务。如果重试次数用尽，同步任务会退出，需要手动重启任务。

你可以参考 DM 官方文档中的同步任务配置章节了解更多关于重试机制的内容。

Hacker007 · 2023 年6 月 1 日 07:49

版本太旧了，新版本会重试，旧版本不能重试需要重启
故障及处理方法 | PingCAP 文档中心

Anna · 2023 年6 月 1 日 10:50

请看这个
https://docs.pingcap.com/zh/tidb/stable/optimistic-transaction#重试机制

system · 2023 年7 月 31 日 10:51

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。