多个pd集群监控显示不准确

xieguanghui · 2019 年12 月 30 日 09:38

Prometheus配置文件和granfana图形，三个pd集群，总共9台服务器，但是instance只显示了6台，从granfana上看，能收到比如54.188的数据

不懂就问 · 2019 年12 月 30 日 09:47

确定两个问题：监控不展示的信息在通过 Prometheus 拿 metric 的时候有吗？如果有，pd-ctl ->member 找下 pd 的 leader 节点，在监控部分选 leader 的 IP 看下展示的信息。Prometheus 没有的话在没有监控的信息的机器上看下 node_exporter 是否在运行，异常的时候根据 log 信息排查下。

xieguanghui · 2019 年12 月 30 日 10:01

pd-ctl -u “http://192.168.54.188:2379” -d member 能看到leader是187

唯独188有一些指标没有数据，node_exporter是封装到pd里面的

xieguanghui · 2019 年12 月 30 日 10:22

不懂就问 · 2019 年12 月 30 日 10:49

188 所有的指标都没有还是缺少部分的？如果是都没有看下机器上 node_export 是否正常，可以看下对应日志。

xieguanghui · 2019 年12 月 30 日 10:58

感觉像是缺少部分

看granfana instance显示的就比较怪。。三个pd集群。。只有100网段的显示全了

xieguanghui · 2019 年12 月 30 日 11:00

pd把node_exporter集成到软件内部了，所以pd启动起来，node_exporter就启动起来了

qizheng · 2019 年12 月 30 日 14:19

默认情况下 pd 的 instance 只会显示 leader 所在的节点；

如果 pd leader 发生切换，切换到新节点，才会显示该节点对应的 instance；

从监控看，三个集群的 pd 都有了，其他网段显示不全可能是 pd leader 没有发生过切换或只切换了一次。

xieguanghui · 2019 年12 月 31 日 01:44

你看我Prometheus收集的数据记录，70.117是leader 怎么也没有？

qizheng · 2019 年12 月 31 日 01:58

截图显示的是 etcd leader，可能和 pd leader 不是同一个 instance，以 pd-ctl > member 看到的 leader 为准，或者通过 pd 监控 PD Role 面板下的 metric 确认

count(delta(pd_server_tso{type=“save”,instance=“$instance”}[1m]))

xieguanghui · 2019 年12 月 31 日 02:02

是同一个instance，job=tidb 这个是标记的job name 别的job name不会到这里

xieguanghui · 2019 年12 月 31 日 02:04

而且 pd-ctl > member 看到的 leader也是跟监控一样 le

不懂就问 · 2019 年12 月 31 日 02:17

尝试使用 pd-ctl ->member leader transfer pd3 切换 pd 的 leader 到 188 上面看下监控信息是否能展示。

xieguanghui · 2019 年12 月 31 日 02:28

已经切换到188，但是granfana在instance上不显示187的监控

xieguanghui · 2019 年12 月 31 日 02:32

难道只显示leader的？？follow节点不显示？？

不懂就问 · 2019 年12 月 31 日 02:42

只参考 pd leader 的监控信息就可以，切完之后 188 显示的监控信息完整吗？

xieguanghui · 2019 年12 月 31 日 02:44

倒也能看。。但是你看100网段的leader和follow都显示。。这领导要是问起来一样的集群怎么有这差异。。不好解释呀

xieguanghui · 2019 年12 月 31 日 02:47

快愁死我了。。

188虽然是显示了。。但是角色怎么是follower啊。。pd-ctl看到的是leader。。。

xieguanghui · 2019 年12 月 31 日 03:01

count(delta(pd_tso_events{type=“save”,instance="$instance"}[1m]))改成 count(delta(pd_server_tso{type=“save”,instance="$instance"}[1m])) pd_tso_events在Prometheus里没有收集到数据。。你们试试看吧。。。切换了一下100网段各个pd 现在只显示leader的ip了。。

不懂就问 · 2019 年12 月 31 日 03:34

好的