dm start-task stop-task query-status 长时间无响应结果

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:4.0
  • 【问题描述】:DM v2.0.0-rc.2
    首次搭建集群启动任务正常同步;然后重复如下操作(stop-task、修改任务配置、删除下游同步的数据表、start-task)几次后,出现 start-task stop-task query-status 任何操作都无响应结果,且 dm-master 日志报错

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

从日志报错看,应该是 DM-worker 响应超时了, 建议查看一下 dm-work log 的情况。

感谢!
dm-worker 日志无报错

参考一下故障处理方法

检查 class , 定位错误发生在哪些组件的交互环节,根据错误 message 判断是哪类通信错误。如果是 gRPC 建立连接出错,可检查通信服务端是否运行正常。

你好,我们尝试复现一下。请问

1 修改任务配置具体修改了什么
2 start-task有没有带其他参数
3 上下游分别是什么版本的数据库

如果方便的话可以告诉一下几个master几个worker、是不是部署到一起的

感谢!
修改任务配置主要是修改了 mydumpers loaders 参数。具体如下:
1 首次部署集群任务配置:pool-size 16 ,statement-size 2000 ,其他采取默认,迁移速度较慢,cpu不太稳定
2 第二次修改任务配置:pool-size 16 ,statement-size 4000,其他采取默认,迁移速度相比第一次快很多,但 tikv 的 cpu 很高
3 第三次修改任务配置:pool-size 32 ,statement-size 4096,其他采取默认,cpu 异常高,然后立即执行 stop-task
4 后面再次修改任务配置引入 rows 同时改pool-size为8 ,重启任务就没有响应结果了
5 尝试重启 dm 集群,再操作一样无响应结果
6 每次修改任务配置均修改了任务名称

start-task --remove-meta task.yml
start-task task.yml

上游是 mysql 5.7 下游 tidb 4.0

分开部署一个 master 一个 worker ,worker 机器cpu核数为 32

1赞

补充:
重启任务无响应 停止任务无响应 dm-master.log 报错
这个时候 tidb 是成功同步了部分数据的

现在重启 tidb 集群,又正常了

你好,方便的话可以上传下 master 和 worker 日志

感谢!
以下日志为重启 dm 集群后的日志。(日志稍作了下调整屏蔽了部分执行sql)
dm-master.log (105.6 KB) dm-worker.log (73.9 KB)

我这边再一次出现这个报错。情况是这样的:
昨天频繁修改任务start stop,没注意到有个任务 test3 没stop成功。

1 刚刚使用query-status查看结果如下(我的任务配置文件从昨天18:30重启 tidb 后一直是 test5):
image

2 然后我执行 stop-task test3 一直无响应结果,查看 dm-master.log 日志出现 grpc 报错

3 再次执行 query_status 无响应结果

4 查看 tidb 数据库 test5 还在正常同步数据

[2020/10/16 18:05:22.470 +08:00] [ERROR] [server.go:1705] [“fail to query operation”] [retryNum=26] [task=test5] [source=mysql-replica-01] [expect=Stopped] [error="[code=38008:class=dm-master:scope=internal:level=high], Message: grpc request error, RawCause: rpc error: code = Canceled desc = context canceled"]

可能是 dm-master 连接不上 dm-worker(或 dm-worker 不能响应 dm-master 的请求),比如网络问题或防火墙端口等导致 dm-master 的请求没有发到 dm-worker

可以用 tiup 查看 dm master 和 dm worker 的状态是不是正常,尝试把 dm-worker 节点重启一下恢复集群

tiup 查看集群状态如下:
image

query-status 仍然无响应

重启 dm 集群后,操作正常!

上面报错日志中仅有类似的 log 出现,可以在观察下,如有问题欢迎继续反馈

好的 感谢

ok~