DM 升级到 v2.0.7 后占用 CPU 非常高

yilong · 2021 年12 月 25 日 04:33

没法直接降级。可以考虑新建一个 DM 集群，把任务迁移过去了。
可以参考的文档。https://docs.pingcap.com/zh/tidb-data-migration/v2.0/export-import-config/
目前如果只是怀疑的话，看 release note 和 profile，猜测可能是 2.0.5 版本（升级 Golang 版本到 v1.16 #1922）有影响。
不过 4c 安装 25 个 dm-worker 这种也不推荐。

MyronWang · 2021 年12 月 25 日 05:38

嗯，升级之前我做了 config export，回头我先测试下。辛苦。

lonng · 2021 年12 月 25 日 06:25

看 CPU 的图，一部分使用率升高，一部分降低，可以看看是不是不同的 worker 负载不均匀，可能需要手动 balance 一下。

MyronWang · 2022 年1 月 14 日 06:56

通过半个多月的观察，虽然相比旧的版本 CPU 消耗有几倍增长，但整体看来，非常稳定。目前 CPU 平均使用率在 82% 左右，同步一直正常。

集群升级到 v2.0.7 后，出现了上述问题。出现问题后，我们并没有第一时间“回退版本”，因为当时运行了一晚上，同步都很正常，只是 CPU 负载很高，其他正常。于是，我们当时做了两个预案：
1）不做任何操作，持续观察。一旦同步受影响，机器响应异常，第一时间对 CPU 资源做热升级（我们使用的是云主机），观察是否恢复；如果不能恢复，使用第二预案。
2）临时扩容 DM 集群，将部分 dm-worker 的负载迁移到扩容的新节点，解决当前同步问题。同时，部署一套新的“旧版本”的 DM 集群，然后停止原先的集群，将配置导入新部署的“旧版本” DM 集群。（也可以不扩容，直接部署导入）

（将整个情况贴出，给有类似情况的同学一个参考:grinning:）

Kongdom · 2022 年1 月 14 日 07:00

xfworld · 2022 年1 月 14 日 09:39

这个分享很强大，很有参考价值了

db_user · 2022 年1 月 14 日 10:15

好分享，

MyronWang · 2022 年1 月 14 日 10:21

感谢几位大佬的赞赏，小弟在此一并谢过

dbaspace · 2022 年1 月 19 日 04:39

看完整个对话，貌似没定位到为什么引起的问题？还是因为本身新功能自身消耗了资源比较多？不影响对下游写入么，不会延迟？

MyronWang · 2022 年1 月 19 日 11:31

我这边看，是新版本对 CPU 资源消耗更高了，因为我这边只做了版本升级，其他没变动过。
到目前为止，对同步无影响。

MyronWang · 2022 年10 月 31 日 19:18

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。