【 TiDB 使用环境】生产环境
【 TiDB 版本】5.4.1
【遇到的问题】其中一台tikv IO繁忙,我该如何排查?
【复现路径】
【问题现象及影响】
当前有没有在做什么操作,感觉像是有热点;
tikv-details里面的thread cpu方便提供下么
KV集群Leader region分布怎样?
没做操作
不是很均匀
unified read pool cpu这块截图下,另外看下磁盘使用都达到了多少,是否超过了70%,日志看起来像有很多大事务提交
如果 region 数量一致,也没有热点问题,有可能是硬件问题了…
需要一点点排查
看起来不像是有热点问题,是不是三台机器的磁盘不一致,或者磁盘快满了触发了write stall之类的问题
先排除是否存在热点问题
1、检查确认是否leader 分部不均
2、检查确认是热点
3、 排查kv 具体那部分IO 高了
检查看是 rocksdb raft、rocksdb kv 那个耗费的 IO
在看一下这几个地方 是否有延迟高的情况
https://metricstool.pingcap.com/#backup-with-dev-tools 按此导出下tidb\tikv detail\overview \ node_export(Io高的主机)监控,要 expand all后等待所有面板展开,并加载完数据