tikv 新增节点（数据已均衡） IO 使用率99%还是一直非常高！

LKLK · 2021 年8 月 2 日 09:28

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：

【背景】做过哪些操作
线上新增2个tikv 节点，机器配置跟原先3个tikv节点一样，参数也一样，扩容期间新2个TIKV节点就一直很高，以为数据在均衡，等数据已均衡， IO 使用率还是一直非常高！请问如何需要优化？
【现象】业务和数据库现象
tikv 新增节点（数据已均衡） IO 使用率99%还是一直非常高！
【业务影响】
tikv 新增节点（数据已均衡） IO 使用率还是一直非常高！
【TiDB 版本】
v5.1.1
【附件】

相关日志和监控

TiUP Cluster Display 信息

image1826×347 44.7 KB
TiUP Cluster Edit Config 信息

image573×684 13.4 KB
TiDB- Overview 监控

image967×413 75.9 KB

image907×219 27.2 KB

iostat %util 90%多，但iotop 显示才10%多，到底哪个准？

对应模块日志（包含问题前后1小时日志）

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

Lucien · 2021 年8 月 2 日 13:10

是在监控看到 I/O 使用率一直都是 98% 左右吗？以系统 stats 查询结果为准。

xfworld · 2021 年8 月 2 日 13:28

看看热力图，有没有热点问题？

LKLK · 2021 年8 月 3 日 01:18

是的，命令是要iostat -x 1 查看到的，请问从哪些方面排查？

LKLK · 2021 年8 月 3 日 01:19

这是热点图

songxuecheng · 2021 年8 月 3 日 01:33

看下tikv日志在输出什么

LKLK · 2021 年8 月 3 日 01:49

都是INFO级别的日志，我们时区是EST

songxuecheng · 2021 年8 月 3 日 01:51

上传一份现在时间长一点的日志现在还是90%吗

LKLK · 2021 年8 月 3 日 01:54

tikv.log (5.1 MB)

Lucien · 2021 年8 月 3 日 02:09

两方面， iostat -x 1 抓取的当前的，grafana 监控展示的是以 1 分钟粒度抓取的数据。所以 iostat -x 应该会比 grafana 精确，如果没有哦明显的性能瓶颈，可以按照 xfworld 同学的提示看一下是否存在热点问题。也有一种情况是新扩容的 TiKV在 balance region ，所以有大量的写入请求。这个可以看一下 tikv- details 监控里面的 server 监控部分，有 write bytes 监控。

LKLK · 2021 年8 月 3 日 02:18

谢谢解答。
热点问题：我有截取1天的图，断掉部分在维护

tikv- details 监控里面的 server 监控部分，有 write bytes 监控。

Lucien · 2021 年8 月 3 日 02:28

可以先用 metrictools 导出一下 tikv-details 、对应的扩容节点的 disk performance 监控，一起分析一下。

LKLK · 2021 年8 月 3 日 03:03

bigdata-Disk-Performance_2021-08-03T03_02_44.229Z.json (94.2 KB) bigdata-TiKV-Details_2021-08-03T02_57_36.582Z.json (1.4 MB)

LKLK · 2021 年8 月 3 日 03:04

麻烦大佬帮忙定位下问题呀，线上节点。。！

Lucien · 2021 年8 月 3 日 03:50

现在线上影响是什么？除了告警？其他的业务影响是怎么样的？

LKLK · 2021 年8 月 3 日 03:56

现在业务不受影响，但是新增2个节点io 使用率一直很高，就想知道如何解决？

Lucien · 2021 年8 月 3 日 04:07

数据没有出成功，需要将监控数据展示出来，再导出。

LKLK · 2021 年8 月 3 日 05:16

bigdata-TiKV-Details_2021-08-03T05_15_05.288Z.json (2.7 MB) bigdata-Disk-Performance_2021-08-03T05_16_03.635Z.json (19.1 KB)

Lucien · 2021 年8 月 4 日 08:06

监控数据还不完善，定位不了问题哈。看看能不能先自己排查一下，可以参考做一下排查。TiDB 写入慢流程排查系列（四）— TiKV Server 写入流程

LKLK · 2021 年8 月 9 日 02:13

查了半天，是我们新机器购买的intel磁盘io 应该有问题，跟tidb 配置和参数没关系