网络异常导致DM同步中断，重启后报错io.ReadFull(header) failed

hanson · 2020 年4 月 16 日 02:44

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

【TiDB 版本】：v3.0.11 DM v1.0.3
【问题描述】：

dm同步报如下错误：

dm-worker日志如下：

然后我使用stop-task / start-task 重启任务，错误依旧存在，看状态是running，实际已经停止

snluyufu · 2020 年4 月 16 日 02:57

我之前遇到过，应该是网络的问题

zhenjiaogao · 2020 年4 月 16 日 03:00

报错显示的是链接被重置：

1、请检查上游 MySQL 和下游 DM-Worker 的网络联通性，如通过 telnet 命令进行验证

2、请检查上下游 MySQL 和 DM 服务器直接是否有网络安全策略，存在链接回收的设置。

3、请检查其他链接超时回收的设置

4、请尝试重启 DM-Worker 后，尝试启动 task ，再观察下

hanson · 2020 年4 月 16 日 03:28

网络可能是出现过抖动，但是目前telnet是正常的，今天也没有做过其它操作
重启dm-worker后，再开启task，出现新的错误：

反复重启过几次，都是这样的错误

hanson · 2020 年4 月 16 日 03:35

重启dm-worker后，现在relay log已经开始继续写入了，但是同步任务还是启动不了，错误就是上面截图所示

zhenjiaogao · 2020 年4 月 16 日 03:49

1、请检查下 task 配置文件相关的设置：

2、如果方便请上传 task 的配置文件~

hanson · 2020 年4 月 16 日 03:59

这个同步任务运行有一个多月了

zhenjiaogao · 2020 年4 月 16 日 04:26

请使用 mysqlbinlog -vv 解析下下述的 relaylog 看下是否有异常发生：

hanson · 2020 年4 月 16 日 04:32

这是中断的binlog位点信息

hanson · 2020 年4 月 16 日 05:51

对比了下源mysql binlog，中间没有漏掉信息，直接跳过了，现在已经恢复了

zhenjiaogao · 2020 年4 月 16 日 05:55

，请帮忙反馈下，这个环境的 relaylog 的 meta 文件是否手动的编辑修改过？

下次出现相应的报错，可以尝试下述步骤，避免数据丢失：

建议重新从上游拉取报错位置的 binlog 文件，并重新开始同步，参考步骤如下：

1）停止 task

2）停止 dm-worker

3）修改 relay-meta 文件为报错的 binlog 的内容,比如：报错时有 binlog-name = "mysql-bin.004451" 与 binlog-pos = 2453 ，则将其分别更新为 binlog-name = "mysql-bin.004452" 和 binlog-pos = 4 ，同时更新 GTID 的信息比如对应位点的 GTID 为 binlog-gtid = "f0e914ef-54cf-11e7-813d-6c92bf2fa791:1-138218058" 。

4）重启 dm-worker

5）将下游 dm_meta 数据库中 global checkpoint 与每个 table 的 checkpoint 中的 binlog_name 更新为出错的 binlog 文件，将 binlog_pos 更新为已同步过的一个合法的 position 值，比如 4。

6）修改 task 的 safe-mode 为 true，并启动 task

7）观察同步状态，报错的 binlog 同步完成后，可以修改 task 的 safe-mode 为 false，然后继续同步

hanson · 2020 年4 月 16 日 06:00

relay log下的meta文件没有人为修改

好的，谢谢！

zhenjiaogao · 2020 年4 月 16 日 06:04