没有读写量,但是集群所有机器磁盘IO都非常高

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:v4.0
  • 【问题描述】:没有读写量,但是集群所有机器磁盘IO都非常高,每秒写入量大概在20-200M,但磁盘使用量没有变

某些配置已经按照其他帖子来配置

麻烦上传下over-view,tidb,detail-tikv监控,在觉得IO高的时间段,多谢。

tidb-pro-Overview_2020-09-25T09_58_15.668Z.json (1.3 MB) tidb-pro-PD_2020-09-25T09_49_15.106Z.json (646.0 KB) tidb-pro-TiKV-Details_2020-09-25T10_03_35.386Z.json (8.1 MB)
一直都非常高,没有下来过。磁盘写入每秒在20M-200M不等。但是我的磁盘使用量几乎没有变大,并且TIDB的入口也就不到10M

从 IO 看每个机器的IO都在变化,麻烦挑一个IO高的机器,执行 iotop,查看下具体是哪个进程占用的IO高,多谢。

都是tikv的进程。虽然每台机器的IO都在变化,但是整个集群都是这种IO特别高的情况

  1. 主要是jdb2进程高,查找以前的案例,关闭sync-log可能能够降低,当时关闭这个参数后,如果有异常down机器,可能存在丢数据的风险。
    TIKV三台服务器所在IO都非常高,特别是jbd2/vdb1-8,IO占用50%以上。

  2. 、 jdb2 存在一些 bug ,可以检查下您的操作系统版本是否符合,多谢。
    https://cloud.tencent.com/developer/article/1465600

tiup cluster edit-config tidb-pro


tiup reloadedit-config tidb-pro

请问这样的配置方式是正确的吧?

是的,修改后reload tikv 就可以了,可以使用 -R 指定角色

已经调整了这个参数,IO还是比较高。
升级到4.0后,IO的使用率明显 提升。 在这篇帖子看到了调整blance参数,请问在哪修改hot region 的 src-tolerance-ratio, dst-tolerance-ratio ?

麻烦反馈下当前进程高的截图,还是 jdb2 的进程吗?