下午数据库有几次突然连不上,过了二十分钟左右又自己好了,想排查一下是什么原因,该怎么做?
服务器监控有吗,首先看下服务器的内存cpu是不是满了
炸的时候,服务器也连不上,连上也是很卡的那种
可以根据 grafana 监控 overview - system info 先判断下故障对应时间点 各个服务器资源有没有瓶颈,再根据具体瓶颈点进一步分析。
炸的时候,服务器也连不上,连上也是很卡的那种
这种情况一般是内存消耗完了,可以看下sa日志记录
/var/log/sa目录下的日志文件
我们遇到这种问题一般是表健康度过低,执行计划乱了,导致服务器资源消耗比较高,数据库功能异常
我遇到过,大概率是内存被消耗完了,然后等操作系统kill进程以后,就可以正常ssh到机器了。你现在要做的就是先确认机器上的节点(大概率是tidb节点)是不是被系统kill了。然后去查tidb日志,找到消耗内存的sql并优化,同时调整tidb的内存控制的参数。如果是tikv导致的,那就要调小tikv的block cache参数了
我碰上这种情况,就是机器性能不够,又把pd和tikv放在一台了。tikv把cpu跑满了,pd没响应了。
通过相关系统日志,数据库日志,监控日志,排查
机器配置不够吧,阶段性假死
有进度嘛
有日志,把当时pd tidb 和tikv日志都看看
我们遇到过一次是连接数太多,导致没有空闲连接可用。
看下监控日志,我们好几次就是因为kv节点内存溢出导致机器重启
我们遇到过,是TiDB Server节点OOM了,看下TiDB日志吧
此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。