tidb-server主机当机

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:v3.0.15
  • 【问题描述】:我们监控显示tidb-server集群主机可用内存大幅减少(128G可用内存最终降为0),最终机器当机。该机器就部署了tidb-server(2个实例),pd以及除tikv的其他组件,我看了tidb-server日志,也没看到有用的提示,请问这个我该怎么排查,求点思路。

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出打印结果,请务必全选并复制粘贴上传。

在可用内存大幅降低时,网络那边Inbound到了1GB,我也查了那个时间段,slow_query没有记录;

可以参考下文档检查
https://book.tidb.io/session4/chapter7/tidb-oom.html#1-如何快速确认-tidb-server-出现了-oom