为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。
- 【TiDB 版本】:4.0
- 【问题描述】:DM v2.0.0-rc.2
首次搭建集群启动任务正常同步;然后重复如下操作(stop-task、修改任务配置、删除下游同步的数据表、start-task)几次后,出现 start-task stop-task query-status 任何操作都无响应结果,且 dm-master 日志报错
若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。
为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。
若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。
从日志报错看,应该是 DM-worker 响应超时了, 建议查看一下 dm-work log 的情况。
参考一下故障处理方法
https://docs.pingcap.com/zh/tidb-data-migration/stable/error-handling
检查 class
, 定位错误发生在哪些组件的交互环节,根据错误 message 判断是哪类通信错误。如果是 gRPC 建立连接出错,可检查通信服务端是否运行正常。
你好,我们尝试复现一下。请问
1 修改任务配置具体修改了什么
2 start-task有没有带其他参数
3 上下游分别是什么版本的数据库
如果方便的话可以告诉一下几个master几个worker、是不是部署到一起的
感谢!
修改任务配置主要是修改了 mydumpers loaders 参数。具体如下:
1 首次部署集群任务配置:pool-size 16 ,statement-size 2000 ,其他采取默认,迁移速度较慢,cpu不太稳定
2 第二次修改任务配置:pool-size 16 ,statement-size 4000,其他采取默认,迁移速度相比第一次快很多,但 tikv 的 cpu 很高
3 第三次修改任务配置:pool-size 32 ,statement-size 4096,其他采取默认,cpu 异常高,然后立即执行 stop-task
4 后面再次修改任务配置引入 rows 同时改pool-size为8 ,重启任务就没有响应结果了
5 尝试重启 dm 集群,再操作一样无响应结果
6 每次修改任务配置均修改了任务名称
start-task --remove-meta task.yml
start-task task.yml
上游是 mysql 5.7 下游 tidb 4.0
分开部署一个 master 一个 worker ,worker 机器cpu核数为 32
补充:
重启任务无响应 停止任务无响应 dm-master.log 报错
这个时候 tidb 是成功同步了部分数据的
现在重启 tidb 集群,又正常了
你好,方便的话可以上传下 master 和 worker 日志
我这边再一次出现这个报错。情况是这样的:
昨天频繁修改任务start stop,没注意到有个任务 test3 没stop成功。
1 刚刚使用query-status查看结果如下(我的任务配置文件从昨天18:30重启 tidb 后一直是 test5):
2 然后我执行 stop-task test3 一直无响应结果,查看 dm-master.log 日志出现 grpc 报错
3 再次执行 query_status 无响应结果
4 查看 tidb 数据库 test5 还在正常同步数据
[2020/10/16 18:05:22.470 +08:00] [ERROR] [server.go:1705] [“fail to query operation”] [retryNum=26] [task=test5] [source=mysql-replica-01] [expect=Stopped] [error="[code=38008:class=dm-master:scope=internal:level=high], Message: grpc request error, RawCause: rpc error: code = Canceled desc = context canceled"]
可能是 dm-master 连接不上 dm-worker(或 dm-worker 不能响应 dm-master 的请求),比如网络问题或防火墙端口等导致 dm-master 的请求没有发到 dm-worker
可以用 tiup 查看 dm master 和 dm worker 的状态是不是正常,尝试把 dm-worker 节点重启一下恢复集群
tiup 查看集群状态如下:
query-status 仍然无响应
重启 dm 集群后,操作正常!
上面报错日志中仅有类似的 log 出现,可以在观察下,如有问题欢迎继续反馈
好的 感谢
ok~