tikv集群某个节点io util占用100%

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:
    Release Version: v2.1.13
    Git Commit Hash: 6b5b1a6802f9b8f5a22d8aab24ac80729331e1bc
    Git Branch: HEAD
    UTC Build Time: 2019-06-21 12:27:08
    GoVersion: go version go1.12 linux/amd64
    Race Enabled: false
    TiKV Min Version: 2.1.0-alpha.1-ff3dd160846b7d1aed9079c389fc188f7f5ea13e
    Check Table Before Drop: false
  • 【问题描述】:
    整个集群8个tikv节点总有一个tikv节点io util占用明显很高,甚至达到100%,导致业务处理较慢,请问如何排查问题和解决,或者通过调度等手段尽快让该节点IO降低?
    部分截图如下:



    若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出打印结果,请务必全选并复制粘贴上传。

单个节点资源使用率高,有可能是热点问题导致的,可以先参考热点问题排查文档看下:

https://docs.pingcap.com/zh/tidb/stable/troubleshoot-hot-spot-issues
https://asktug.com/t/topic/1014
https://book.tidb.io/session4/chapter7/hotspot-resolved.html#72-热点问题处理思路

另外 v2.1.3 这个版本属于比较早期的版本的了,是否可以考虑升级一下,3.0、4.0 版本中都对 TiDB 性能有比较多的优化

1 个赞

看监控已经没有热点的,而且是偶尔出现这种情况会导致整个集群受影响,没有强制手段调度或者转移吗?

可以通过 iotop 看下具体是什么进程在占用 IO 情况

之前有遇到过一个 linux bug ,现象是 jdb2 进程导致磁盘 IO util 很高:

https://cloud.tencent.com/developer/article/1465600

确认是多个tikv进程占用io99%,无jdb2进程,停止写入并重启该tikv节点后目前又恢复正常了。

建议升级到较新版本,这个可能是老版本的问题。

因为看到升级到3.0以上的版本不支持回退,兼容性可能存在问题,我们评估下升级对系统的影响

好的,如果新版本还是存在相同情况可以继续反馈一下