其中一台tikv IO繁忙

【 TiDB 使用环境】生产环境
【 TiDB 版本】5.4.1
【遇到的问题】其中一台tikv IO繁忙,我该如何排查?
【复现路径】
【问题现象及影响】




当前有没有在做什么操作,感觉像是有热点;

tikv-details里面的thread cpu方便提供下么

KV集群Leader region分布怎样?

没做操作

不是很均匀

tikv 警告日志

unified read pool cpu这块截图下,另外看下磁盘使用都达到了多少,是否超过了70%,日志看起来像有很多大事务提交

如果 region 数量一致,也没有热点问题,有可能是硬件问题了…

需要一点点排查

看起来不像是有热点问题,是不是三台机器的磁盘不一致,或者磁盘快满了触发了write stall之类的问题

先排除是否存在热点问题

其他三台kv节点都是163G,有问题这台节点 152G使用


1、检查确认是否leader 分部不均
2、检查确认是热点

3、 排查kv 具体那部分IO 高了

检查看是 rocksdb raft、rocksdb kv 那个耗费的 IO

image

在看一下这几个地方 是否有延迟高的情况

leader 分布还行


热点是看那个热点呢

https://metricstool.pingcap.com/#backup-with-dev-tools 按此导出下tidb\tikv detail\overview \ node_export(Io高的主机)监控,要 expand all后等待所有面板展开,并加载完数据