tidb有个机器内存耗尽人工重启了,怎么排查具体原因

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】7.5.1

【遇到的问题:问题现象及影响】
原理的集群重装为版本7.5.1,使用原来的配置文件部署,然后lightning导入重装前的备份数据。导入完成后,又重启了一次集群,发现集群故障

故障现象:
19.207服务器内存耗尽离线了
Heaplnuse-192.168.19.207:10080 占用了很大的内存:95.9 GiB




查看下系统日志?

大sql干挂了。日志有些的

dashboard查询下expensive日志,有没有大内存的SQL或者其他

还没等到oom kill我就重启机器了 系统日志没发现太有用的东西

看看日志吧

只有两个tikv服务器? tidb pd tikv 三个还都是安装在 同一个服务器?? 你副本是1个吗?如果是1个tikv应该没问题,如果是3个 ,tikv会有问题官方文档 3副本,至少要3个tikv,

有6个tikv 3副本

lightning导入完成的时候还是正常的吗,然后重启集群后发现tidb节点占用内存非常高,就手动重启了机器对吧?重启机器后跑了sql吗,比如接入业务了吗,有人跑sql测试吗

先lightning导入完成 正常的 ,然后resstart集群,过了10分钟有个机器失联了,一看 内存占用太高卡死了

这十分钟有没有人执行sql呢,最好在有问题的tidb的日志中找找expensive关键字,如果是sql导致的内存升高,基本会有这个关键字。如果找不到的话,可能是其他原因了。

参考https://mp.weixin.qq.com/s/KK7GffPmk_rMCRpYz_ZZyg

先确定一下是哪个组件oom, 安装 tidb,tikv
https://docs.pingcap.com/zh/tidb/stable/troubleshoot-tidb-oom

https://docs.pingcap.com/zh/tidb/stable/tune-tikv-memory-performance

你这混搭,有时候确实不好分析,去grafana看看占用内存高是哪个组件

上面截图有了,Heaplnuse-192.168.19.207:10080占了90多G

混合部署,优化下内存使用
https://docs.pingcap.com/zh/tidb/stable/configure-memory-usage

需要看下日志的

看看大sql