Grafana汇总报表

Grafana汇总报表
–2020-09-23 刘春雷

1、背景

自58同城部署TiDB数据库后,集群数量快速增长,截止目前,已经 52 套集群,300台服务器;

由于TiDB的监控都是每套集群单独部署的,单个Grafana只能看单套集群的监控,很全面,但面对众多的集群,如何快速方便的查看所有集群的重要指标呢?如何节前快速排查呢?

2、实现方式

58同城TiDB数据库,当前监控展示实现方式为:任务抽取prometheus的监控数据至当前监控系统,zabbix实现,再通过zabbix接口,拉取数据,在内部数据库平台CDB上展示,给DBA及开发人员查看,同样查看方式为1套集群。

思考实现方式:

【1】、通过zabbix拉取所有集群重点监控至数据库平台CDB进行展示,但因中途经转zabbix,实效性会有影响, 放弃~

【2】、通过每个监控图的分享模式,例如iframe方式,整体汇总指定时间段的监控图,测试几套集群的套可以,但50多套同时通过此方式查看,效率比较差, 放弃~

【3】、新搭建1套独立的grafana,配置所有集群的prometheus数据源,load重点监控的json文件,例如overview,以集群为单位,进行展示, 可以~

【4】、但3方式快速查看所有集群的重点监控,还是需要点击、回退等,比较麻烦。便进行新建dashborad,添加图表,将重点监控图的配置复制上,然后查看json配置,写个小工具,生成所有集群的此json文件,替换配置即可,这样就可以快速查看所有集群的重点监控项了, 可以~

如果大家有更好的方式,也可以相互交流下哈~

3、效果

单独搭建grafana,界面如下,分为:

  • 所有集群重点监控项汇总dashboard

  • 所有集群的Overview


    所有集群的重点监控项,暂时取了2项,后续可以继续添加即可

  • Druation,

  • Statement OPS


    所有集群的Overview,同每套Grafana的Overview一样的,只是汇总至一个Grafana,方便快速查看~
    all_grafana_3

1赞

感谢分享,:+1: