TiDB OOM原因问题排查


应该没有特定配置过

只有一个就没得绑了。。。32G内存部署PD+tidb-server有点不够的。。。


机器配置大概这样,qps不高,之前从来没有出现过这个问题,最近连着两天了,开发那边也没有任何调整

您说的sql卡出来怎么理解?

tidb.log里看下oom前有啥信息,搜索Welcome ,再看下pd进程占的内存

tidb 12:19分oom前后的日志



30G的物理内存和PD混用,tidb 都占了25G ,怎么监控是50%?


看看这个目录里有记录SQL的文件没

出问题的时间,pd的内存没有什么波动

这里面sql之前大概看了,好像唯一值得怀疑的是analyze的语句,是不是analyze哪里变量参数设置有问题啊?



对啊,这个就很奇怪,你看最上面的grafana监控,tidb才用了7GB,dmesg 显示的是25GB左右,不知道是怎么统计到tidb-server里面的

不过,这个analyze触发的时间也是在OOM之后,应该不是它导致的

监控采集点事15秒一个,grafana显示问题可能和这有关。 10 SQL里除了analyze其他的还有啥,建议还是能升级到当前最新的版本6.1.7

其它的一些插入,更新,查询的看内存消耗都才几百kb,最大的几MB