TIDB 集群突然写请求陡降

【 TiDB 使用环境】生产环境
【 TiDB 版本】v7.5.2
【复现路径】9:21~9:24分TIDB集群突然写请求陡降,基本降低到0,持续了3分钟左右,需要大神给指点给些排查思路
【遇到的问题:问题现象及影响】
问题排查:
1、网络&服务器层:网络延迟均小于3ms【常态下】,服务器message日志也没有明显报错
2、流量&负载情况:SQL没有性能问题,QPS变化不大,tikv部分实例cpu负载突然变高,怀疑这是结果,而不是原因
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】
TIDBserver相关监控:


TIKV相关监控:




前端、网络、负载均衡啥的是不是有人搞变更了

都没有,这个确定排查过了,还是怀疑tikv哪里卡住了

所有tikv都卡住,感觉不大可能呢 , 看下tikv detail → errors , RocksDB - kv ->Write stall duration 监控啥样


Write stall duration监控也都正常

感觉还是前面干啥了 导致流量进不了 然后3分钟后发现了这问题

我在排查下吧,感谢了

就是磁盘io突降吧,有时候数据库没问题,应用故障了,也会有这个情况,
lightning高速导入数据,也会影响,但一般不会降到0,

tidbserver写跌到0了,不是io突降

1 个赞

你看看监控 在这3分钟有哪些指标是增长的,有没有大的查询

可以按下面导出下监控:
打开监控面板,选择监控时间,(先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成)
PingCAP MetricsTool 使用工具导出 Grafana 数据为快照

只是个偶发的case,SQL层面也分析过确实没问题

当时连接什么的有掉 0 么?掉 0 的时候只有 insert 掉 0 么,如果不是那数据库应该没问题,因为数据库有问题应该都执行不了
看监控 tikv 、tidb 都是突然掉 0,感觉像前端压力突然没了。应用没啥报错么?对应时间。

网络看下是否有变更,感觉是中断了链接。另外从应用端请求服务器查起–到负载均衡–再到tidb是否有解析–一步步往后看。

只有写掉了,读没受影响

:thinking: 那真的感觉是写应用挂了?应用没报错么。。。Orz

insert qps才30+,这种情况下断3分钟,不太像是数据库侧有问题。

我还是怀疑微服务架构,单独升级了写模块,升级可能卡了3分钟。这个概率更大。

qps不高,但是每秒写入row比较高,基本是在3w~4w左右

1 个赞

1、看看具体日志;
2、这段时间有没有资源负载。

问题时段,Tidbserver正常吧?

tidbserver都正常