DM load 慢

[tidb@kaikaitidb1 bin]$ ./pd-ctl -u http://10.7.110.114:2379 store { “count”: 3, “stores”: [ { “store”: { “id”: 1, “address”: “10.7.110.117:20160”, “version”: “3.0.5”, “state_name”: “Up” }, “status”: { “capacity”: “787.3GiB”, “available”: “708.1GiB”, “leader_count”: 359166, “leader_weight”: 1, “leader_score”: 441621, “leader_size”: 441621, “region_count”: 375090, “region_weight”: 1, “region_score”: 461278, “region_size”: 461278, “start_ts”: “2020-05-13T08:59:19+08:00”, “last_heartbeat_ts”: “2020-05-13T09:17:05.366187782+08:00”, “uptime”: “17m46.366187782s” } }, { “store”: { “id”: 4, “address”: “10.7.110.119:20160”, “version”: “3.0.5”, “state_name”: “Up” }, “status”: { “capacity”: “787.3GiB”, “available”: “710.4GiB”, “leader_count”: 11861, “leader_weight”: 1, “leader_score”: 14020, “leader_size”: 14020, “region_count”: 377530, “region_weight”: 1, “region_score”: 458212, “region_size”: 458212, “receiving_snap_count”: 1, “start_ts”: “2020-05-13T09:14:59+08:00”, “last_heartbeat_ts”: “2020-05-13T09:17:02.357081996+08:00”, “uptime”: “2m3.357081996s” } }, { “store”: { “id”: 5, “address”: “10.7.110.118:20160”, “version”: “3.0.5”, “state_name”: “Up” }, “status”: { “capacity”: “787.3GiB”, “available”: “713.6GiB”, “leader_count”: 190350, “leader_weight”: 1, “leader_score”: 234804, “leader_size”: 234804, “region_count”: 370138, “region_weight”: 1, “region_score”: 461404, “region_size”: 461404, “start_ts”: “2020-05-13T09:06:04+08:00”, “last_heartbeat_ts”: “2020-05-13T09:16:57.427564841+08:00”, “uptime”: “10m53.427564841s” } } ] }

你好,

  1. 烦请提供下监控中 pd - 界面和 cluster 监控项的内容,当前怀疑 store 已用空间和 leader 数量相差较多,帮忙加以印证。
  2. 请上传下三台 log/tikv.log,这边看下 tikv 这边存在的问题

grafana监控界面在截图时,工具不好用,都保存到excel里面了。三个tivk的日志也上传了。 tikv_117.log (4.1 MB) tikv_118.log (3.5 MB) tikv_119.log (4.1 MB) grafana界面指标.xlsx (3.1 MB)

你好,

根据 overview 中 region health 显示 empty-region-count 为 559k,在数据占用仅为 80G 上下的 集群来说已经很多了。请根据以下链接开启 region merge 看是否可缓解 tikv 繁忙的问题。

已经开启了region merge。TiDB集群中TiDB服务器总是重启,rongyilong同事帮忙解决的,在解决时开启了这个。
image

你好

ok,开启之后看来还没合并

  1. 可能还没有达到合并阈值,需要调小

  2. 还有可能之前做过 drop 或者 truncate table 操作,导致有很多空表,目前默认情况,空表的region 是不自动合并的需要增加以下两个参数。(你可以先调整这两个参数,看效果不行就调小 region size 的阈值)

  3. PD 参数 namespace-classifier = “default”

  4. TiKV 参数 split-region-on-table: false

可以在中控节点修改 pd.yml 然后执行 ansible-playbook rolling_update.yml --tags=pd 来使修改生效或者 edit-config 之后通过 tiup cluster cluster-name reload -R pd。

麻烦反馈下一下信息和展示信息

将下图信息展示下:

修改配置:(通过ansible-playbook rolling_update.yml --tags=pd ansible-playbook rolling_update.yml -t tikv 这两个命令重启的)
image image
上面命令没有执行时的数量:

按照上面的配置修改成功。
image

image

好的,请问目前 empty-region-count 是否有所下降?

麻烦反馈下下面这个图,看下 current storage size。

刚才一直观察当中,current storage size有下降,但number of regions没有下降。之后又按修改了一下配置,如下图,也没起作用: image


上次的截图

region数量开始减少了,但速度不是很快30秒少了80个左右

嗯,可以观察一段时间,

集群方面:

目前看是由于 region 数量太多,选 leader 导致 tikv 很繁忙,tidb 日志中也是出现 region is unavailabl

dm 方面:

load 阶段出现大量 ddl 冲突的日志,目前 mydumper 数量不多 30+G,可以删除下游已经 load 进去的数据(drop),重新 load。避免冲突和重试,给 tidb 带来更多的负担。

现在region数量在慢慢减少,感觉有了希望!
那个dm的task等region合并完后,再重新做一次,这个方便
region合并完成后,现在修改的这些参数,还需要再修改回么?或都哪些需要修改回去?

不需要,这两个值根据 海量 Region 集群调优最佳实践 可以调整回

image

收到。等完成后再反馈,应该需要一段时间的

:love_you_gesture:

mark,速度不快,初步估计还需要5天

你好,

目前合并空 region需要根据具体的服务器配置和目前集群负载来进行调度,

如果目前集群比较空闲,可以适当调整 merge-scgedule-limit 2 的倍数即可,看是否对集群有影响。否则可以在调小

这个参数改完后非常好用,原来是8,现在改为128了,原来30秒合并80个左右,现在是将近900个。是否还能继续调大?

:rofl:

  1. overview、tikv detail、pd

辛苦

通过以下方式截全图并上传下 ,时间区间为 1h30min,感谢,这边看下监控:

(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

 (3)、使用这个 full-page-screen-capture 插件进行截屏保存
···