新集群 io utilization

undefined · 2021 年7 月 6 日 03:21

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：

【概述】场景 + 问题概述
oltp场景下，我们迁移新集群后，io utilization 过高，。

查询发现 raft append 和 apply 都是10ms甚至更低。

【背景】做过哪些操作
tidblightning 导入数据

【现象】业务和数据库现象
暂无异常现象
【问题】当前遇到的问题
io utilization 过高
【业务影响】
其他都很正常,日志也没异常，系统负载偏低，有点担心，io应该会导致cpu利用率不高。

【TiDB 版本】
v4.0.9

【应用软件及版本】
tikv虚拟机配置： 本地 SSD 网络增强型 i2gne / ecs.i2gne.8xlarge（32vCPU 128GiB）

【附件】相关日志及配置信息

TiUP Cluster Display 信息

image1434×270 90 KB
TiUP CLuster Edit config 信息

image450×853 22.6 KB

监控（https://metricstool.pingcap.com/)

TiDB-Overview Grafana监控
TiDB Grafana 监控
TiKV Grafana 监控
PD Grafana 监控
对应模块日志（包含问题前后 1 小时日志）

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

undefined · 2021 年7 月 6 日 03:45

undefined · 2021 年7 月 6 日 06:14

虽然util显示已经90%了，但是支持并行IO的ssd并不适用这个指标。disk IO util这个指标，是早期衡量机械硬盘繁忙程度的一个监控，不关心等待在队里里面IO的个数，它只关心队列中有没有IO。对新的存储系统RAID，SSD等支持并行IO的存储是无效的指标，这个后期也会被遗弃。
如果业务上感觉磁盘性能异常，可以使用fio对磁盘做读写的测试，看是否满足云盘页面的性能标准。

不懂就问 · 2021 年7 月 6 日 07:30

看起来是 TiKV 的 IO 比较高，可以是使用 iotop 看下对应的 KV 节点 IO 消耗情况。

undefined · 2021 年7 月 7 日 05:43

所有集群都是一样的，已经确认了 io utilization 这个指标是早期针对HDD的，对于并行IO的SSD 没有任何参考意义

不懂就问 · 2021 年7 月 7 日 06:57

看起来就是 KV 三个节点的 IO 比较高，这个现象是从 lightning 导数结束开始的吗？可以提供下 PD 的监控看下是否是因为导数完成之后 region 调度引起的问题。

system · 2022 年10 月 31 日 19:20

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。