Grafana面板的overview的system Info页面的io util 面板有一个pd节点显示的io消耗过高

还是没有找到根本性问题啊,完全对不上啊

能不能辛苦帮忙仔细分析下问题在哪里啊, 一个问题弄了好几天都没有找到原因,硬件问题我也排除了,那只能说明是集群的问题,iostat跑出来的数据,明显跟grafana里面的不一样

请问下,这个帖子以及 导入数据库之后,通过监控页面tikv-details页面发现存贮为空 两个帖子关于监控的问题是同一套集群吗 ?

grafana 监控中可以根据相关公式,rate(node_disk_io_time_seconds_total{instance=“$host”}[$interval]) or irate(node_disk_io_time_seconds_total{instance=“$host”}[1m]) 来检查下 prometheus 中的值。

rate与irate的区别 可参考 Prometheus监控:rate与irate的区别_东东~的博客-CSDN博客

是同一个集群,我已经销毁,重新部署 了

额,那这个问题没办法继续排查了。

1、pd 节点 3.44 按照上述的排查过程 iostat 和 iostat -x -m 5 与 grafana 的指标呈现一个相反的现象

2、使用 io util 的公式 rate(node_disk_io_time_seconds_total{instance=“$host”}[$interval]) or irate(node_disk_io_time_seconds_total{instance=“$host”}[1m]) 在 prometheus 上看下上报的 io util 的数据是否也与 iostat 或 iostat -x -m 5 不一致

3、prometheus 访问方式为,在 inventory 文件中的这部分的 ip:port 方式在浏览器访问:
image

还有一根问题,我的tikv的面板上还是没有数据,为空

1、pd 数量一般建议为奇数个,具体请查看 tidb 高可用部分

2、pd 一个节点 io util 高,如果使用 iostat 确认服务器 io 本身空闲,但是 grafana 显示比较高,请在 overview 的 system info 面板执行下下述公式,看下 3.44 返回的数据:

irate(node_disk_io_time_seconds_total[1m])

3、tikv 监控没有数据,请在 prometheus 里面检查相关的监控数据是否上报

是这样吗?针对第二个问题

是这个截图吗

第三点怎么上报的,怎么看

我感觉你还是没有回答我的问题啊?跟奇数偶数什么的,我之前第一次部署的时候就是奇数,3个pd,也是这个很高,我感觉问了一个礼拜下来,根本没有解决我的问题,我现在有新增了一个节点是4个,那为啥另外两个还是很低呢,根本没有用到什么io

我这个已经一个多礼拜了,没有解决了啊,你们能不能给个彻底解决方案啊,我能试的都试过了,之前已经销毁过集群,重新部署了一次

这是另两个其中一个

可以看到出问题的节点,iostat每次第一行都是90多的使用率,没问题的节点,都很低. 停止pd以后,也是这样,所以请联系硬件厂商和操作系统看一下,多谢

j经过检测是linux版本内核问题。


升级内核之后

:clap::clap::clap:

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。