TiDB 的问答社区

tikv集群某个节点io util占用100%

🪐 TiDB 技术问题性能调优

tureo (Tureo) 2020 年10 月 9 日 06:23 1

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

【TiDB 版本】：
Release Version: v2.1.13
Git Commit Hash: 6b5b1a6802f9b8f5a22d8aab24ac80729331e1bc
Git Branch: HEAD
UTC Build Time: 2019-06-21 12:27:08
GoVersion: go version go1.12 linux/amd64
Race Enabled: false
TiKV Min Version: 2.1.0-alpha.1-ff3dd160846b7d1aed9079c389fc188f7f5ea13e
Check Table Before Drop: false
【问题描述】：
整个集群8个tikv节点总有一个tikv节点io util占用明显很高，甚至达到100%，导致业务处理较慢，请问如何排查问题和解决，或者通过调度等手段尽快让该节点IO降低？
部分截图如下：

io%20util%202301878×272 233 KB

iostat-230787×246 9 KB

iotop-2301889×677 39.6 KB

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出打印结果，请务必全选并复制粘贴上传。

GangShen 2020 年10 月 9 日 07:11 2

单个节点资源使用率高，有可能是热点问题导致的，可以先参考热点问题排查文档看下：

https://docs.pingcap.com/zh/tidb/stable/troubleshoot-hot-spot-issues
https://asktug.com/t/topic/1014
https://book.tidb.io/session4/chapter7/hotspot-resolved.html#72-热点问题处理思路

另外 v2.1.3 这个版本属于比较早期的版本的了，是否可以考虑升级一下，3.0、4.0 版本中都对 TiDB 性能有比较多的优化

1 个赞

tureo (Tureo) 2020 年10 月 23 日 06:57 3

看监控已经没有热点的，而且是偶尔出现这种情况会导致整个集群受影响，没有强制手段调度或者转移吗？

GangShen 2020 年10 月 23 日 07:36 4

可以通过 iotop 看下具体是什么进程在占用 IO 情况

之前有遇到过一个 linux bug ,现象是 jdb2 进程导致磁盘 IO util 很高：

https://cloud.tencent.com/developer/article/1465600

tureo (Tureo) 2020 年10 月 23 日 08:17 5

确认是多个tikv进程占用io99%，无jdb2进程，停止写入并重启该tikv节点后目前又恢复正常了。

GangShen 2020 年10 月 23 日 08:31 6

建议升级到较新版本，这个可能是老版本的问题。

tureo (Tureo) 2020 年10 月 23 日 08:33 7

因为看到升级到3.0以上的版本不支持回退，兼容性可能存在问题，我们评估下升级对系统的影响

GangShen 2020 年10 月 23 日 14:29 8

好的，如果新版本还是存在相同情况可以继续反馈一下

©2023 TiDB Community. 京ICP备20022552号-5 京公网安备11010802043344号