扩容后服务器IO Util一直100%,导致业务数据无法写入


这个IO到底是什么IO,要怎么优化?

有没有帮忙解决下问题哈?线上都不可用了。
有没有办法限制下,数据同步的速度?

  1. 先登录对应的主机使用 iotop 之类的命令查看哪个进程占用消耗的 IO 多
  2. 如果是确认增加 store 导致的 leader 迁移导致,可以参考文档限制 store 速度试试

https://docs.pingcap.com/zh/tidb/stable/configure-store-limit#实现原理


这个是stroe吗?

  1. 请问后面这里可以显示出来吗?我们看下具体内容
    image

  2. 同时排查下是否业务上有批量操作,多谢。

  3. 如果怀疑是扩容导致,麻烦上传下 PD 的监控信息,多谢。

(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存






我这边网络限制,装不了这个插件。你说的那个?号的,我这边按了也没有效果。

  1. 从进程看主要是 unfied read pool,这个是读进程,那么业务上应该存在大量读请求

  2. 可以查看下 dashboard 界面是否有大量慢查询,可以按照总执行时间查看是否有大sql,多谢

这台服务器的数据需要同步到新的扩容服务器中。所以肯定是读的请求比较多哈。我确定肯定是扩容导致的,从10点扩容开始IO就这样了。

搞了7个小时了,才同步出来25G的数据。而且还导致业务不可用。

  1. 从你反馈的进程看不像是均衡导致的,可以先关闭试试
    (1) tiup ctl pd -u xxx:xx -i 进入pd-ctl命令行
    (2) config show all 记录配置信息
    (3) config set region-schedule-limit 0 关闭均衡
    (3) 观察如果 IO 恢复正常,等到业务低峰期在设置参数为记录的原值

  2. 如果没有恢复,麻烦反馈 over-view,tidb ,detail-tikv 的监控信息,多谢。

4.0.0版本。这个改就可以了吗? 我记得这个是你们4.0.2版本特性哈。

特性是指的上面文档里的 store limit,不是这个,可以修改的,多谢。

修改了,提示成功了,但是没有效果。默认2048,改成0,1024都不行。

那麻烦您反馈监控信息,并将参数改为原值,多谢。

  1. 监控不全,麻烦反馈完整的监控信息,多谢。
  2. 您这次反馈的 tikv 信息看 IO 高的好像没有之前反馈的 10.7 节点,可以看看 10.83 节点的 IO 信息