数据库突然炸了,连不上

下午数据库有几次突然连不上,过了二十分钟左右又自己好了,想排查一下是什么原因,该怎么做?

服务器监控有吗,首先看下服务器的内存cpu是不是满了

炸的时候,服务器也连不上,连上也是很卡的那种

可以根据 grafana 监控 overview - system info 先判断下故障对应时间点 各个服务器资源有没有瓶颈,再根据具体瓶颈点进一步分析。

炸的时候,服务器也连不上,连上也是很卡的那种
这种情况一般是内存消耗完了,可以看下sa日志记录
/var/log/sa目录下的日志文件

我们遇到这种问题一般是表健康度过低,执行计划乱了,导致服务器资源消耗比较高,数据库功能异常

我遇到过,大概率是内存被消耗完了,然后等操作系统kill进程以后,就可以正常ssh到机器了。你现在要做的就是先确认机器上的节点(大概率是tidb节点)是不是被系统kill了。然后去查tidb日志,找到消耗内存的sql并优化,同时调整tidb的内存控制的参数。如果是tikv导致的,那就要调小tikv的block cache参数了

捞捞sql看看是否有异常的?数据库访问超时,系统负载高

1 个赞

我碰上这种情况,就是机器性能不够,又把pd和tikv放在一台了。tikv把cpu跑满了,pd没响应了。

通过相关系统日志,数据库日志,监控日志,排查

机器配置不够吧,阶段性假死

有进度嘛

有日志,把当时pd tidb 和tikv日志都看看

我们遇到过一次是连接数太多,导致没有空闲连接可用。

看下监控日志,我们好几次就是因为kv节点内存溢出导致机器重启

我们遇到过,是TiDB Server节点OOM了,看下TiDB日志吧

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。