TiDB 突然延迟上升

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
【概述】TiDB 突然延迟上升到1s
【背景】tidb 写集群,无读流量,无变更
【现象】TiDB 突然延迟上升到15s ,写延迟较大
【业务影响】
【TiDB 版本】V5.0.4
【附件】

  1. TiUP Cluster Display 信息

  2. TiUP Cluster Edit Config 信息

  3. TiDB- Overview 监控

  • 对应模块日志(包含问题前后1小时日志)
4 个赞


tikv的 Scheduler监控

2 个赞

2 个赞

2 个赞

1 个赞

Write conflict tikv日志搜索一下

1 个赞

无结果 哈哈

1 个赞

看302课程 你这个看着和那个案例差不多,写排查

4 个赞

qps下降下来了,是不是有锁等待相关的,看看几张和锁相关的表看看

1 个赞

磁盘空间看下。是不是磁盘空间达到阀值 在做调度 导致tikv忙

1 个赞
low-space-ratio

这个默认值是0.8,看你的存储,可能是某台TiKV的存储到瓶颈了,可以检查下。

2 个赞

问题期间的监控:https://clinic.pingcap.com:4433/diag/files/?uuid=d8dabe9be6db24f6-6631859ed0e0b6e1-89f55096c7880ac6

1 个赞

补充12H监控
https://clinic.pingcap.com:4433/diag/files?uuid=d8dabe9be6db24f6-3810ceb6b8205452-de07aa5ea8cf53bb"

1 个赞

tikv.log.2022-02-17-17:28:54.986054518 (2.9 MB)

1 个赞

补充日志

1 个赞

log.tar.gz (275.9 KB)
dmseg日志和 message 日志

1 个赞

从上面的dashboard 看,TIKV coprocessor 没有等待

1 个赞

rocksdb.info.2022-02-18-09:22:06.810664755 (21.7 MB) raftdb.info.2022-02-18-09:25:05.936286586 (4.0 MB)

172.18.234.83在 9 点 30 左右夯死用户重启过一次,11 点到 15:44的问题经过排查推测还是172.18.234.83内核夯导致的,因为多个日志(系统 message,tikv log,rocksdb log,raftrockslog) 都在 09:33 到 17:28 之间没有任何日志写入,tikv 监控中发现该实例压力很小,因为 compaction 文件积压导致 write stall,应该也是卡在了内核层无法写文件。
该问题需要事故时的堆栈信息和火焰图来实锤,只能等下次复现后通过 dashboard 的 profiling 抓取相关信息再定位了。

1 个赞

抽时间得补补视频课程