DM load 慢

嗯,可以观察一段时间,

集群方面:

目前看是由于 region 数量太多,选 leader 导致 tikv 很繁忙,tidb 日志中也是出现 region is unavailabl

dm 方面:

load 阶段出现大量 ddl 冲突的日志,目前 mydumper 数量不多 30+G,可以删除下游已经 load 进去的数据(drop),重新 load。避免冲突和重试,给 tidb 带来更多的负担。

现在region数量在慢慢减少,感觉有了希望!
那个dm的task等region合并完后,再重新做一次,这个方便
region合并完成后,现在修改的这些参数,还需要再修改回么?或都哪些需要修改回去?

不需要,这两个值根据 海量 Region 集群调优最佳实践 可以调整回

image

收到。等完成后再反馈,应该需要一段时间的

:love_you_gesture:

mark,速度不快,初步估计还需要5天


你好,

目前合并空 region需要根据具体的服务器配置和目前集群负载来进行调度,

如果目前集群比较空闲,可以适当调整 merge-scgedule-limit 2 的倍数即可,看是否对集群有影响。否则可以在调小

这个参数改完后非常好用,原来是8,现在改为128了,原来30秒合并80个左右,现在是将近900个。是否还能继续调大?

:rofl:

  1. overview、tikv detail、pd

辛苦

通过以下方式截全图并上传下 ,时间区间为 1h30min,感谢,这边看下监控:

(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

 (3)、使用这个 full-page-screen-capture 插件进行截屏保存
···

调整成256了,现在速度更快了。
grafana界面指标_20200514.xlsx (4.3 MB)

ok,生产环境此参数还是太高了,如果是离线集群,仅为了修复此问题,可以尝试哈

收到,等这个合并完了,就改回去。这个问题困扰一周了,着急将问题搞定。

:ok_hand:

请问,空 region 合并后,重新 loader 有变化吗?

loader速度变快了很多,和最开始测试的时候差不多。但出现了另外一个dm导入进不去的问题,在https://asktug.com/t/topic/34391/9这个贴子里面说了。
谢谢关心

感谢反馈

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。