Grafana面板的overview的system Info页面的io util 面板有一个pd节点显示的io消耗过高

Hacker_MQWByunT · 2020 年1 月 9 日 07:06

还是没有找到根本性问题啊，完全对不上啊

能不能辛苦帮忙仔细分析下问题在哪里啊，一个问题弄了好几天都没有找到原因，硬件问题我也排除了，那只能说明是集群的问题，iostat跑出来的数据，明显跟grafana里面的不一样

小王同学 · 2020 年1 月 9 日 08:07

请问下，这个帖子以及导入数据库之后，通过监控页面tikv-details页面发现存贮为空两个帖子关于监控的问题是同一套集群吗？

grafana 监控中可以根据相关公式，rate(node_disk_io_time_seconds_total{instance=“$host”}[$interval]) or irate(node_disk_io_time_seconds_total{instance=“$host”}[1m]) 来检查下 prometheus 中的值。

rate与irate的区别可参考 Prometheus监控：rate与irate的区别_东东~的博客-CSDN博客

Hacker_MQWByunT · 2020 年1 月 9 日 08:09

是同一个集群，我已经销毁，重新部署了

小王同学 · 2020 年1 月 9 日 08:22

额，那这个问题没办法继续排查了。

zhenjiaogao · 2020 年1 月 14 日 05:21

1、pd 节点 3.44 按照上述的排查过程 iostat 和 iostat -x -m 5 与 grafana 的指标呈现一个相反的现象

2、使用 io util 的公式 rate(node_disk_io_time_seconds_total{instance=“$host”}[$interval]) or irate(node_disk_io_time_seconds_total{instance=“$host”}[1m]) 在 prometheus 上看下上报的 io util 的数据是否也与 iostat 或 iostat -x -m 5 不一致

3、prometheus 访问方式为，在 inventory 文件中的这部分的 ip:port 方式在浏览器访问：

Hacker_MQWByunT · 2020 年1 月 14 日 05:42

还有一根问题，我的tikv的面板上还是没有数据，为空

zhenjiaogao · 2020 年1 月 14 日 06:31

1、pd 数量一般建议为奇数个，具体请查看 tidb 高可用部分

2、pd 一个节点 io util 高，如果使用 iostat 确认服务器 io 本身空闲，但是 grafana 显示比较高，请在 overview 的 system info 面板执行下下述公式，看下 3.44 返回的数据：

irate(node_disk_io_time_seconds_total[1m])

3、tikv 监控没有数据，请在 prometheus 里面检查相关的监控数据是否上报

Hacker_MQWByunT · 2020 年1 月 14 日 06:59

是这样吗？针对第二个问题

是这个截图吗

第三点怎么上报的，怎么看

我感觉你还是没有回答我的问题啊？跟奇数偶数什么的，我之前第一次部署的时候就是奇数，3个pd，也是这个很高，我感觉问了一个礼拜下来，根本没有解决我的问题，我现在有新增了一个节点是4个，那为啥另外两个还是很低呢，根本没有用到什么io

我这个已经一个多礼拜了，没有解决了啊，你们能不能给个彻底解决方案啊，我能试的都试过了，之前已经销毁过集群，重新部署了一次

Hacker_MQWByunT · 2020 年1 月 14 日 07:40

这是另两个其中一个

yilong · 2020 年1 月 14 日 08:51

可以看到出问题的节点，iostat每次第一行都是90多的使用率，没问题的节点，都很低. 停止pd以后，也是这样，所以请联系硬件厂商和操作系统看一下，多谢

Hacker_MQWByunT · 2020 年1 月 16 日 07:14

j经过检测是linux版本内核问题。

升级内核之后

GangShen · 2020 年1 月 16 日 07:33

system · 2022 年10 月 31 日 19:14

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。

Grafana面板的overview的system Info页面的io util 面板有一个pd节点显示的io消耗过高

rate与irate的区别 可参考 Prometheus监控：rate与irate的区别_东东~的博客-CSDN博客

rate与irate的区别可参考 Prometheus监控：rate与irate的区别_东东~的博客-CSDN博客