数据库突然炸了，连不上

TiDBer_QHSxuEa1 · 2023 年8 月 28 日 09:03

下午数据库有几次突然连不上，过了二十分钟左右又自己好了，想排查一下是什么原因，该怎么做？

像风一样的男子 · 2023 年8 月 28 日 09:04

服务器监控有吗，首先看下服务器的内存cpu是不是满了

TiDBer_QHSxuEa1 · 2023 年8 月 28 日 09:05

炸的时候，服务器也连不上，连上也是很卡的那种

Jasper · 2023 年8 月 28 日 09:08

可以根据 grafana 监控 overview - system info 先判断下故障对应时间点各个服务器资源有没有瓶颈，再根据具体瓶颈点进一步分析。

tidb菜鸟一只 · 2023 年8 月 28 日 09:16

炸的时候，服务器也连不上，连上也是很卡的那种
这种情况一般是内存消耗完了，可以看下sa日志记录
/var/log/sa目录下的日志文件

kkpeter · 2023 年8 月 28 日 09:34

我们遇到这种问题一般是表健康度过低，执行计划乱了，导致服务器资源消耗比较高，数据库功能异常

caiyfc · 2023 年8 月 28 日 09:34

我遇到过，大概率是内存被消耗完了，然后等操作系统kill进程以后，就可以正常ssh到机器了。你现在要做的就是先确认机器上的节点（大概率是tidb节点）是不是被系统kill了。然后去查tidb日志，找到消耗内存的sql并优化，同时调整tidb的内存控制的参数。如果是tikv导致的，那就要调小tikv的block cache参数了

昵称想不起来了 · 2023 年8 月 28 日 14:25

捞捞sql看看是否有异常的？数据库访问超时，系统负载高

有猫万事足 · 2023 年8 月 28 日 15:25

我碰上这种情况，就是机器性能不够，又把pd和tikv放在一台了。tikv把cpu跑满了，pd没响应了。

YuchongXU · 2023 年8 月 28 日 23:30

通过相关系统日志，数据库日志，监控日志，排查

xfworld · 2023 年8 月 29 日 00:05

机器配置不够吧，阶段性假死

Fly-bird · 2023 年8 月 29 日 00:08

有进度嘛

zhanggame1 · 2023 年8 月 29 日 00:36

有日志，把当时pd tidb 和tikv日志都看看

Kongdom · 2023 年8 月 29 日 01:03

我们遇到过一次是连接数太多，导致没有空闲连接可用。

cy6301567 · 2023 年8 月 29 日 02:49

看下监控日志，我们好几次就是因为kv节点内存溢出导致机器重启

wzf0072 · 2023 年8 月 29 日 03:03

我们遇到过，是TiDB Server节点OOM了，看下TiDB日志吧

system · 2023 年10 月 28 日 03:04

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。