请问Tidb监控显示内存为0,这是监控故障还是服务器硬件故障?

请问Tidb监控显示内存为0,这是监控故障还是服务器硬件故障?


内存监控归零,大概率是服务器内存用满,服务oom被杀掉了。

第一张图加载不到监控数据可能是网络有问题
第二张内存掉到0看下是不是节点重启了

display看下集群状态先

应该是tidb-server oom被杀之后重启了

监控坏了,看看监控是不是挂了

是不是服务被干掉了

1、到服务器检查内存是否真的使用完;
2、检查监控的agent端日志是否正常。

第一张图的话:
你看下对应指标在 grafana 显示正常吗,如果也不正常可能是普米的问题亦或是对应 node-exporter 有些问题;如果正常,那可能就是 dashboard 的显示问题了
第二张图:
从这个cpu使用率和内存使用率陡然间下降,大概率是 OOM 了,可以尝试查下 tidb.log 和 message。然后按照 OOM 的排查方式去看看。

1 个赞

server内存降为0,应该是server oom 重启了,可以在日志目录中有个 oom_record 目录下看看是否有日志产生。

另外第一个图 Prometheus Load失败,可以通过 tiup cluster display xx 看看集群状态,是不是因为Prometheus组件本身也有问题了

1 个赞

dmesg -T看看系统日志

出问题的图都是需要prometheus的,是被缩容了,还是没有部署?

看第二张图,跌停之后又上升,大概率就是 OOM 重启了

prometheus是否正常,如果正常,pd可以正常访问prometheus的地址吗?

节点是down状态的时候,内存才会显示0

总结一下:
1 看看监控服务是不是正常的
2 看看是不是服务器把内存全删了

感觉是监控挂了