dm从2.0.1升级到2.0.4后grafana监控binog指标无信息

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【概述】 升级dm集群版本,从2.0.1升级为2.0.4后,任务信息正常显示,但是在binlog各个指标监控图表无信息展示。如下图,升级版本在11点之后。需要中没操作才能显示binlog同步信息呢

【现象】

【TiDB 版本】

【附件】

3赞


集群目前版本和状态信息

2赞

dm升级完成后,原有bin每个worker下都有2.0.1的备份文件,并且日志也在正常拉取。
image

2赞

grafana 监控无数据,建议按照:1、先查看 集群状态(或对应组件状态)是否正常(这个咱们以前确认了)2、登陆 promehteus 的页面(和登陆 grafana 一样,只是IP:PROT 要换成 prometheus 的,然后再执行框里,执行 grafana 里的表达式(表达式,可以在对应 grafana 监控指标的编辑模式里查看一个下三角 图标)3、检查 prometheus 的配置文件,看对应的 组件host 是否在 prometheus 配置文件中(因为高版本的,都是 prometheus 去拉取,所以组件正常的情况下,还需要检查对应组建的状态端口是否正常(不过这个应该都正常,概率较低,组件的状态,端口看官网)

1赞


这个是prometheus 的配置,看了下应该所有的worker信息都在里面

另外grafana的表达式是在哪里看的呀,能再详细说下吗,edit里面的表达式填进去没反应呢

1赞

比如:

2赞

目前对grafana和prometheus进行缩扩容之后,prometheus的各个标签表达式已经能够拉取到数据了


但是在grafana中,instants信息无法获取,但是在全局信息概览中却能够获取到所有worker和task信息


是grafana或者prometheus中什么信息配置错误了吗

2赞

刚才看你的第一次给的监控(其实显示是正常的,只是没数据),需要验证 prometheus 有没有数据,如果有,可能是 grafana 的数据源没配置对(现在没证据,只是瞎猜)

2赞

grafana数据源配置也看了下,能对得上dm的集群信息


这个instances的列表信息是从prometheus哪个标签获取的呢,查看接口请求了个key:dm_relay_space
image
但是在prometheus中没有找到这个标签
:sob: 哭了,想修复数据库经常连接出问题的情况,升级之后问题+n:joy:

1赞

这个监控的问题,不影响集群使用,这个问题的原因,可能不太好排查了:joy:

1赞

:sob:好吧,之后我半夜抽时间重新搭一套吧,还好上面任务不多:rofl:主要太奇怪了,升级了dm集群grafana给挂了哈哈哈,感谢大佬支持

客气了,下次可以分析一下,其实配置就那么几项,我也好奇原因:rofl:

1赞

如果你是指 tidb-dqs-DM-worker-instances 那个 dashboard 的话
instance 到底是啥,可以在 dashboard setting 里的 variables 看到表达式

1赞