请问Tidb监控显示内存为0，这是监控故障还是服务器硬件故障？

炼气期DBA · 2024 年12 月 10 日 15:16

像风一样的男子 · 2024 年12 月 11 日 00:58

内存监控归零，大概率是服务器内存用满，服务oom被杀掉了。

hey-hoho · 2024 年12 月 11 日 00:59

第一张图加载不到监控数据可能是网络有问题
第二张内存掉到0看下是不是节点重启了

呢莫不爱吃鱼 · 2024 年12 月 11 日 01:05

display看下集群状态先

tidb菜鸟一只 · 2024 年12 月 11 日 01:08

应该是tidb-server oom被杀之后重启了

kang · 2024 年12 月 11 日 01:55

监控坏了,看看监控是不是挂了

清风明月 · 2024 年12 月 11 日 01:56

是不是服务被干掉了

koby · 2024 年12 月 11 日 02:22

1、到服务器检查内存是否真的使用完；
2、检查监控的agent端日志是否正常。

BrianLiu · 2024 年12 月 11 日 05:41

第一张图的话：
你看下对应指标在 grafana 显示正常吗，如果也不正常可能是普米的问题亦或是对应 node-exporter 有些问题；如果正常，那可能就是 dashboard 的显示问题了
第二张图：
从这个cpu使用率和内存使用率陡然间下降，大概率是 OOM 了，可以尝试查下 tidb.log 和 message。然后按照 OOM 的排查方式去看看。

老鹰506 · 2024 年12 月 11 日 05:47

server内存降为0，应该是server oom 重启了，可以在日志目录中有个 oom_record 目录下看看是否有日志产生。

另外第一个图 Prometheus Load失败，可以通过 tiup cluster display xx 看看集群状态，是不是因为Prometheus组件本身也有问题了

cchouqiang · 2024 年12 月 11 日 09:24

dmesg -T看看系统日志

有猫万事足 · 2024 年12 月 11 日 09:45

出问题的图都是需要prometheus的，是被缩容了，还是没有部署？

舞动梦灵 · 2024 年12 月 11 日 09:51

看第二张图，跌停之后又上升，大概率就是 OOM 重启了

kevinsna · 2024 年12 月 11 日 12:31

prometheus是否正常，如果正常，pd可以正常访问prometheus的地址吗？

Kongdom · 2024 年12 月 12 日 00:34

节点是down状态的时候，内存才会显示0

数据库真NB · 2024 年12 月 12 日 00:45

总结一下：
1 看看监控服务是不是正常的
2 看看是不是服务器把内存全删了

zhanggame1 · 2024 年12 月 12 日 01:29

感觉是监控挂了