TIDB 集群突然写请求陡降

residentevil · 2024 年12 月 31 日 02:16

【 TiDB 使用环境】生产环境
【 TiDB 版本】v7.5.2
【复现路径】9:21～9:24分TIDB集群突然写请求陡降，基本降低到0，持续了3分钟左右，需要大神给指点给些排查思路
【遇到的问题：问题现象及影响】
问题排查：
1、网络&服务器层：网络延迟均小于3ms【常态下】，服务器message日志也没有明显报错
2、流量&负载情况：SQL没有性能问题，QPS变化不大，tikv部分实例cpu负载突然变高，怀疑这是结果，而不是原因
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件：截图/日志/监控】
TIDBserver相关监控：

TIKV相关监控：

h5n1 · 2024 年12 月 31 日 03:00

前端、网络、负载均衡啥的是不是有人搞变更了

residentevil · 2024 年12 月 31 日 03:06

都没有，这个确定排查过了，还是怀疑tikv哪里卡住了

h5n1 · 2024 年12 月 31 日 03:18

所有tikv都卡住，感觉不大可能呢，看下tikv detail → errors ， RocksDB - kv ->Write stall duration 监控啥样

residentevil · 2024 年12 月 31 日 03:22

Write stall duration监控也都正常

h5n1 · 2024 年12 月 31 日 03:25

感觉还是前面干啥了导致流量进不了然后3分钟后发现了这问题

residentevil · 2024 年12 月 31 日 03:33

我在排查下吧，感谢了

dfzxc · 2024 年12 月 31 日 03:45

就是磁盘io突降吧，有时候数据库没问题，应用故障了，也会有这个情况，
lightning高速导入数据，也会影响，但一般不会降到0，

residentevil · 2024 年12 月 31 日 03:47

tidbserver写跌到0了，不是io突降

h5n1 · 2024 年12 月 31 日 04:10

你看看监控在这3分钟有哪些指标是增长的，有没有大的查询

可以按下面导出下监控：
打开监控面板，选择监控时间，（先按 d 再按 E 可将所有 Rows 的 Panels 打开，需等待一段时间待页面加载完成）
PingCAP MetricsTool 使用工具导出 Grafana 数据为快照

residentevil · 2024 年12 月 31 日 04:17

只是个偶发的case，SQL层面也分析过确实没问题

WalterWj · 2025 年1 月 6 日 02:23

当时连接什么的有掉 0 么？掉 0 的时候只有 insert 掉 0 么，如果不是那数据库应该没问题，因为数据库有问题应该都执行不了
看监控 tikv 、tidb 都是突然掉 0，感觉像前端压力突然没了。应用没啥报错么？对应时间。

gcworkerishungry · 2025 年1 月 6 日 02:43

网络看下是否有变更，感觉是中断了链接。另外从应用端请求服务器查起–到负载均衡–再到tidb是否有解析–一步步往后看。

residentevil · 2025 年1 月 6 日 02:58

只有写掉了，读没受影响

WalterWj · 2025 年1 月 6 日 03:10

那真的感觉是写应用挂了？应用没报错么。。。Orz

有猫万事足 · 2025 年1 月 6 日 03:26

insert qps才30+，这种情况下断3分钟，不太像是数据库侧有问题。

我还是怀疑微服务架构，单独升级了写模块，升级可能卡了3分钟。这个概率更大。

residentevil · 2025 年1 月 6 日 04:24

qps不高，但是每秒写入row比较高，基本是在3w~4w左右

koby · 2025 年1 月 6 日 08:05

1、看看具体日志；
2、这段时间有没有资源负载。

wzf0072 · 2025 年1 月 6 日 12:01

问题时段,Tidbserver正常吧？

residentevil · 2025 年1 月 7 日 02:01

tidbserver都正常