tiKV缩容

一个5个tiKV节点的集群(版本3.0.7),访问流量很小,现在想缩容,下线两台机器,调节了相关的调度参数,发现region迁移的速度一直没啥变化。我希望速度更快一点儿

使用默认参数和修改配置之后没有明显的变化

可以尝试做以下调整:

  1. region-schedule-limit 以及 replica-schedule-limit 调整到 64
  2. pd-ctl -u {pd_ip}:{pd_port} store limit {storeid} 32 (storeid 为 需要下线的节点的 storeid ,可以通过 pd-ctl -u {pd_ip}:{pd_port} store 查询)
  3. 注意线上节点的压力。如果压力升高的话可以把参数调整回来。

好像少了调整的内容,看不到

按照你提供的建议,我这边试了一下,发现没有什么变化,还是老样子,我的一个很大的疑问是,所有的节点的网络流量没有一个超过10MiB的,这个不合理,无论我怎么调整参数,网络流量,CPU使用都保证稳定,不会有太多变化,我怀疑是否tiKV底层针对region的snapshot有单独的处理队列(或者线程),而这个队列限制了这种迁移的速率。 如果调度的限制成倍的增大,但是监控上看没有引起什么变化的话,我有理由相信我的怀疑。

抱歉,之前的说明有误:

  1. pd-ctl -u {pd_ip}:{pd_port} store limit {storeid} 32 (storeid 应该为不需要下线的节点的 storeid ,可以通过 pd-ctl -u {pd_ip}:{pd_port} store 查询)
  2. 如果调整之后还是比较慢的话麻烦提供下 PD 的监控。获取监控的方法如下:
  • chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

  • 鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

  • 使用这个 full-page-screen-capture 插件进行截屏保存

嗯,果然有效果,非常感谢