请问Tidb监控显示内存为0,这是监控故障还是服务器硬件故障?
内存监控归零,大概率是服务器内存用满,服务oom被杀掉了。
第一张图加载不到监控数据可能是网络有问题
第二张内存掉到0看下是不是节点重启了
display看下集群状态先
应该是tidb-server oom被杀之后重启了
监控坏了,看看监控是不是挂了
是不是服务被干掉了
1、到服务器检查内存是否真的使用完;
2、检查监控的agent端日志是否正常。
第一张图的话:
你看下对应指标在 grafana 显示正常吗,如果也不正常可能是普米的问题亦或是对应 node-exporter 有些问题;如果正常,那可能就是 dashboard 的显示问题了
第二张图:
从这个cpu使用率和内存使用率陡然间下降,大概率是 OOM 了,可以尝试查下 tidb.log 和 message。然后按照 OOM 的排查方式去看看。
1 个赞
server内存降为0,应该是server oom 重启了,可以在日志目录中有个 oom_record 目录下看看是否有日志产生。
另外第一个图 Prometheus Load失败,可以通过 tiup cluster display xx 看看集群状态,是不是因为Prometheus组件本身也有问题了
1 个赞
dmesg -T看看系统日志
出问题的图都是需要prometheus的,是被缩容了,还是没有部署?
看第二张图,跌停之后又上升,大概率就是 OOM 重启了
prometheus是否正常,如果正常,pd可以正常访问prometheus的地址吗?
节点是down状态的时候,内存才会显示0
总结一下:
1 看看监控服务是不是正常的
2 看看是不是服务器把内存全删了
感觉是监控挂了