tikv io被打至82%和92%整个集群响应慢,影响业业使用

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:v 3.0.6
  • 【问题描述】:tikv io被打至82%和92%, duration 999 分别是11秒和14秒 整个集群响应慢,影响业业使用,时间:10.12:30–10.14:00,10:29:30–10.30:30

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出打印结果,请务必全选并复制粘贴上传。

tikv.zip (505.6 KB)

tikv log 中有大量的读写冲突,但是需要通过监控判断下数量,

解释:读写冲突,读数据时发现 key 有锁阻碍读,锁包括未提交的乐观锁和未提交的 prewrite 后的悲观锁。

辛苦上传下 overview 面板的完整监控,这边需要判断锁冲突需要 tidb - lock resolve ops/kv backoff ops
其他监控判断当时的集群状态,感谢配合

image image

冲突还好,先看下业务是否有暴增情况,否则可以上传下 tikv detail ,tidb 监控的完整截图,这边分析下