数据库突然卡顿一下,业务全部收到影响,如何排查原因。

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】v5.4.0 2tidb 3pd 3tikv 2ha
【复现路径】在14:57分钟左右业务卡断,查询此时延迟很高,有一个tikv的IO达到了100%,没有特别严重的慢查询,请教下如何排查问题,截图如下:
【遇到的问题:问题现象及影响】
【资源配置】
【附件:截图/日志/监控】





监控 tikv-detail → errors 、tidb-> kv errors 看看有啥

哪个时间点的日志看下,主要看error的

看图是有个时间卡了一下,
先看看数据库日志有没有error出现
再操作系统日志有没有异常
还要排查下网络情况,是不是网络卡顿

你看
1
需要定定期 对大表进行清理
2
建立审核制度排除坏的习惯 select *
3
优先解决这段时候资源占用最大的

根据操作系统日志分析,是他们存储出问题了,现象和这个是一致的:

那台io很高的tikv机器存储有故障吗

应该交换机到存储服务器的一个端口的网线有问题,这台tikv的存储和另外2台tikv的存储没在一个lun

我们以前用oracle时候也遇到过类似卡顿,后来发现到存储的的多个光纤线里面有一根会丢包

tidb和kv都看下那段时间的监控

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。