DM 升级到 v2.0.7 后占用 CPU 非常高

  1. 没法直接降级。可以考虑新建一个 DM 集群,把任务迁移过去了。
  2. 可以参考的文档。https://docs.pingcap.com/zh/tidb-data-migration/v2.0/export-import-config/
  3. 目前如果只是怀疑的话,看 release note 和 profile,猜测可能是 2.0.5 版本 (升级 Golang 版本到 v1.16 #1922) 有影响。
  4. 不过 4c 安装 25 个 dm-worker 这种也不推荐。
3 个赞

嗯,升级之前我做了 config export,回头我先测试下。辛苦。

2 个赞

看 CPU 的图,一部分使用率升高,一部分降低,可以看看是不是不同的 worker 负载不均匀,可能需要手动 balance 一下。

1 个赞

通过半个多月的观察,虽然相比旧的版本 CPU 消耗有几倍增长,但整体看来,非常稳定。目前 CPU 平均使用率在 82% 左右,同步一直正常。

集群升级到 v2.0.7 后,出现了上述问题。出现问题后,我们并没有第一时间“回退版本”,因为当时运行了一晚上,同步都很正常,只是 CPU 负载很高,其他正常。于是,我们当时做了两个预案:
1)不做任何操作,持续观察。一旦同步受影响,机器响应异常,第一时间对 CPU 资源做热升级(我们使用的是云主机),观察是否恢复;如果不能恢复,使用第二预案。
2)临时扩容 DM 集群,将部分 dm-worker 的负载迁移到扩容的新节点,解决当前同步问题。同时,部署一套新的“旧版本”的 DM 集群,然后停止原先的集群,将配置导入新部署的“旧版本” DM 集群。(也可以不扩容,直接部署导入)

(将整个情况贴出,给有类似情况的同学一个参考:grinning:)

2 个赞

:+1::+1::+1:

这个分享很强大,很有参考价值了

好分享,:+1::+1::+1:

感谢几位大佬的赞赏,小弟在此一并谢过:pray::pray:

看完整个对话,貌似没定位到为什么引起的问题?还是因为本身新功能自身消耗了资源比较多?不影响对下游写入么,不会延迟?

我这边看,是新版本对 CPU 资源消耗更高了,因为我这边只做了版本升级,其他没变动过。
到目前为止,对同步无影响。

1 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。