tidb-server突然连接不上，应该是资源用尽

qhd2004 · 2021 年8 月 20 日 07:14

【 TiDB 使用环境】
【概述】：场景 + 问题概述
我们6节点集群，三个tidb-server节点，其中某个节点总是连接不上，如下图

【背景】：做过哪些操作
正常运行，没有做调整，也没有上线相关业务

【现象】：业务和数据库现象
down的这个节点，ssh连接不上

【TiDB 版本】：
v5.1.0

【附件】：

我的问题
1，我要如何排查呢，这时，在grafana中我可以查看哪些来获取进一步的信息？
2，在相关慢查询中，我要如何判断sql使用了多少内存呢？
3，我们这个问题跟慢查询是否有关？

QBin · 2021 年8 月 20 日 07:35

看内存使用量这块需要确认一下是不是这台机器 OOM 了。另外 TiDB oom 的问题可以先根据文档进行排查：
https://docs.pingcap.com/zh/tidb/stable/tidb-troubleshooting-map#32-oom-问题

qhd2004 · 2021 年8 月 20 日 07:40

qhd2004 · 2021 年8 月 20 日 07:44

我在dashboard中发现，在121这个节点上有大量的analyze table操作，如下：
这个analyze还是只针对这一张表

qhd2004 · 2021 年8 月 20 日 07:48

分析进程报错了，如下：

qhd2004 · 2021 年8 月 20 日 08:05

空表是可以的，但是这个表中有数据就报错了（表中大约有4W+数据）

qhd2004 · 2021 年8 月 20 日 08:10

好像这个是bug，参考帖子：analyze table异常

QBin · 2021 年8 月 20 日 09:17

qhd2004 · 2021 年8 月 20 日 09:20

已经升级到5.1.1了，目前观察问题解决了。

估计是，tidb执行analyze语句，没有收到正常反馈，然后就再次发出analyze语句，这样就把资料给用尽了。

system · 2022 年10 月 31 日 19:22

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。