新集群 io utilization

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【概述】 场景 + 问题概述
oltp场景下 ,我们迁移新集群后,io utilization 过高, 。


查询发现 raft append 和 apply 都是10ms甚至更低。

【背景】 做过哪些操作
tidblightning 导入数据

【现象】 业务和数据库现象
暂无异常现象
【问题】 当前遇到的问题
io utilization 过高
【业务影响】
其他都很正常,日志也没异常,系统负载偏低, 有点担心,io应该会导致cpu利用率 不高。

【TiDB 版本】
v4.0.9

【应用软件及版本】
tikv虚拟机配置: 本地 SSD 网络增强型 i2gne / ecs.i2gne.8xlarge(32vCPU 128GiB)

【附件】 相关日志及配置信息

监控(https://metricstool.pingcap.com/)

  • TiDB-Overview Grafana监控
  • TiDB Grafana 监控
  • TiKV Grafana 监控
  • PD Grafana 监控
  • 对应模块日志(包含问题前后 1 小时日志)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

虽然util显示已经90%了,但是支持并行IO的ssd并不适用这个指标。disk IO util这个指标,是早期衡量机械硬盘繁忙程度的一个监控,不关心等待在队里里面IO的个数,它只关心队列中有没有IO。对新的存储系统RAID,SSD等支持并行IO的存储是无效的指标,这个后期也会被遗弃。
如果业务上感觉磁盘性能异常,可以使用fio对磁盘做读写的测试,看是否满足云盘页面的性能标准。

看起来是 TiKV 的 IO 比较高,可以是使用 iotop 看下对应的 KV 节点 IO 消耗情况。

所有 集群都是一样的, 已经确认了 io utilization 这个指标 是早期针对HDD的, 对于并行IO的SSD 没有任何参考意义

看起来就是 KV 三个节点的 IO 比较高,这个现象是从 lightning 导数结束开始的吗?可以提供下 PD 的监控看下是否是因为导数完成之后 region 调度引起的问题。

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。