监控接口报错

怎么处理这个报错,技术小白

查看prometheus是否正常
检查pd节点与prometheus的网络是否是通的

1 个赞

执行tiup cluster display tidb-test,看下prometheus进程状态

修改试试呢
image

如果更改过promethes源。需要dashboard修改一下数据源

1 个赞

磁盘爆满了,wal目录数据太多了,这个怎么处理,能删除掉嘛

看下prometheus进程状态,如果状态不正常的话看看网络有没问题

ping一下这个报错的地址

wal目录应该很小啊,一般也就保存下当天的日志

9090端口连接被拒绝,是防火墙挡掉了,还是应用不允许连接?

1、不建议直接清理掉,应该会丢数据
2、过滤下prometheus日志,看下prometheus是否频繁重启, 如有频繁重启,日志会有Starting TSDB …字样。此时可以修改下prometheus配置文件,抛弃一些数据的采集,然后使用tiup重启下prometheus
找到job_name: "tikv"处:添加
metric_relabel_configs:
- source_labels: [name]
separator: ;
regex: tikv_thread_nonvoluntary_context_switches|tikv_thread_voluntary_context_switches|tikv_threads_io_bytes_total
action: drop
- source_labels: [name,name]
separator: ;
regex: tikv_thread_cpu_seconds_total;(tokio|rocksdb).+
action: drop
3、当然也可以通过缩容+扩容的方式重新部署prometheus

1 个赞

如果监控数据不重要,那就删一点数据。如果监控数据重要,那就扩容一个prometheus,然后更改grafana里面的prometheus数据源的信息,这样就能看新扩容之后的监控信息,运行一段时间之后再把问题的prometheus节点缩容。查看有问题的prometheus节点的数据,还是得去改grafana的配置。

获取数据源有问题,检查一下到prometheus的连接

不像网络问题,防火墙或者端口

检查Prometheus 状态,