performance监控大屏展示快速了解故障、集群运行状态

【 TiDB 使用环境】生产环境
【 TiDB 版本】6.5
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】


大屏显示各种图,很炫。但在使用过程中也只有出问题的时候会去看。看的时候是想定位解决问题的。想要知道是不是某个节点挂了,是不是某个sql执行导致cpu过高。
现有的监控屏幕并不能让人一眼看出数据库问题所在,甚至都不能推测可能哪里除了问题。

想要请教一下各位大佬,有没有自己优化过普罗米修斯的视图,可以比较直观地了解运行情况。
或者是有汇总过最常见故障的参数,做过实时展示
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】

TiDB 集群报警规则 | PingCAP 文档中心,告警你按照对应的规则进行查接口,再把消息推送出来嘛

:yum:感觉Dashboard更适合你

1 个赞

有告警,天天在推送。


像这种一分钟就好几个,有告警也很快被覆盖了

现在确实是在看dashboard,就是不能放在普罗米修斯里用来做大屏展示。要不然还可以加上其他汇总信息一块放大屏,实时可看

筛选下关键的指标嘛,根据告警级别针对性告警,再加上告警原因,不然你这样一下子这么多,可读性也差,大家肯定不愿意看

:thinking:这就有点见仁见智了,可能每个人的需求看的内容不一样。

ping值都超过1s了,多差的网络,这不告警?

基础监控图看了以后没有优化思路的看这个视频。
这个里面介绍的非常全面。
特别是 performance overview这个图,属于重点介绍。

5 个赞

好的,谢谢

就是可读性很差,不愿意去看。按照告警级别针对性提示是个不错的建议,我尝试下看看

:call_me_hand:这个视频真的是宝藏分享~

1 个赞

竟然不知道进驻了B站

网络原因吗

宝藏分享!!!

告警参数不断告警那个是网络原因

用Dashboard啊。

2 个赞