一个5个tiKV节点的集群(版本3.0.7),访问流量很小,现在想缩容,下线两台机器,调节了相关的调度参数,发现region迁移的速度一直没啥变化。我希望速度更快一点儿
可以尝试做以下调整:
- region-schedule-limit 以及 replica-schedule-limit 调整到 64
-
pd-ctl -u {pd_ip}:{pd_port} store limit {storeid} 32
(storeid 为 需要下线的节点的 storeid ,可以通过pd-ctl -u {pd_ip}:{pd_port} store
查询) - 注意线上节点的压力。如果压力升高的话可以把参数调整回来。
好像少了调整的内容,看不到
按照你提供的建议,我这边试了一下,发现没有什么变化,还是老样子,我的一个很大的疑问是,所有的节点的网络流量没有一个超过10MiB的,这个不合理,无论我怎么调整参数,网络流量,CPU使用都保证稳定,不会有太多变化,我怀疑是否tiKV底层针对region的snapshot有单独的处理队列(或者线程),而这个队列限制了这种迁移的速率。
如果调度的限制成倍的增大,但是监控上看没有引起什么变化的话,我有理由相信我的怀疑。
抱歉,之前的说明有误:
-
pd-ctl -u {pd_ip}:{pd_port} store limit {storeid} 32
(storeid 应该为不需要下线的节点的 storeid ,可以通过pd-ctl -u {pd_ip}:{pd_port} store
查询) - 如果调整之后还是比较慢的话麻烦提供下 PD 的监控。获取监控的方法如下:
-
chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl
-
鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。
-
使用这个 full-page-screen-capture 插件进行截屏保存
嗯,果然有效果,非常感谢
此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。