TiDB 突然延迟上升

田帅萌7 · 2022 年2 月 17 日 06:21

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：
【 TiDB 使用环境】
【概述】TiDB 突然延迟上升到1s
【背景】tidb 写集群，无读流量，无变更
【现象】TiDB 突然延迟上升到15s ，写延迟较大
【业务影响】
【TiDB 版本】V5.0.4
【附件】

相关日志和监控

TiUP Cluster Display 信息
TiUP Cluster Edit Config 信息
TiDB- Overview 监控

对应模块日志（包含问题前后1小时日志）

田帅萌7 · 2022 年2 月 17 日 06:24

tikv的 Scheduler监控

田帅萌7 · 2022 年2 月 17 日 06:27

screencapture-10-52-42-5-tidb-ordercenteroueryrevenue-d-RDVQiEzZz-tcflyordercenterqueryrevenue-tikv-details-2022-02-17-14_26_081440×7222 1.89 MB

田帅萌7 · 2022 年2 月 17 日 06:28

田帅萌7 · 2022 年2 月 17 日 06:29

songxuecheng · 2022 年2 月 17 日 06:30

Write conflict tikv日志搜索一下

田帅萌7 · 2022 年2 月 17 日 06:36

无结果哈哈

dbaspace · 2022 年2 月 17 日 06:37

看302课程你这个看着和那个案例差不多，写排查

Jiawei · 2022 年2 月 17 日 06:39

qps下降下来了，是不是有锁等待相关的，看看几张和锁相关的表看看

songxuecheng · 2022 年2 月 17 日 06:41

磁盘空间看下。是不是磁盘空间达到阀值在做调度导致tikv忙

CuteRay · 2022 年2 月 17 日 06:48

low-space-ratio

这个默认值是0.8，看你的存储，可能是某台TiKV的存储到瓶颈了，可以检查下。

duzq · 2022 年2 月 17 日 09:00

问题期间的监控：https://clinic.pingcap.com:4433/diag/files/?uuid=d8dabe9be6db24f6-6631859ed0e0b6e1-89f55096c7880ac6

田帅萌7 · 2022 年2 月 17 日 09:16

补充12H监控
https://clinic.pingcap.com:4433/diag/files?uuid=d8dabe9be6db24f6-3810ceb6b8205452-de07aa5ea8cf53bb"

田帅萌7 · 2022 年2 月 17 日 09:18

tikv.log.2022-02-17-17:28:54.986054518 (2.9 MB)

田帅萌7 · 2022 年2 月 17 日 09:18

补充日志

duzq · 2022 年2 月 17 日 10:50

log.tar.gz (275.9 KB)
dmseg日志和 message 日志

逍遥_猫 · 2022 年2 月 18 日 06:27

从上面的dashboard 看，TIKV coprocessor 没有等待

田帅萌7 · 2022 年2 月 18 日 06:59

rocksdb.info.2022-02-18-09:22:06.810664755 (21.7 MB) raftdb.info.2022-02-18-09:25:05.936286586 (4.0 MB)

duzq · 2022 年2 月 18 日 08:31

172.18.234.83在 9 点 30 左右夯死用户重启过一次，11 点到 15:44的问题经过排查推测还是172.18.234.83内核夯导致的，因为多个日志（系统 message，tikv log，rocksdb log，raftrockslog）都在 09:33 到 17:28 之间没有任何日志写入，tikv 监控中发现该实例压力很小，因为 compaction 文件积压导致 write stall，应该也是卡在了内核层无法写文件。
该问题需要事故时的堆栈信息和火焰图来实锤，只能等下次复现后通过 dashboard 的 profiling 抓取相关信息再定位了。

TiDBer_L3dm6WTj · 2022 年2 月 19 日 01:12

抽时间得补补视频课程