使用 TiUP 部署的集群显示集群中未启动必要组件 NgMonitoring

【 TiDB 使用环境】生产环境
【 TiDB 版本】v6.5.0
【遇到的问题:问题现象及影响】


按照官方的 TiUP 安装过程部署完成后,显示未启动必要组件 NgMonitoring,然后去官网
https://docs.pingcap.com/zh/tidb/dev/dashboard-faq#界面提示-集群中未启动必要组件-ngmonitoring

按照对应步骤排查后,发现配置中是有 ng_port 配置的。
保险起见 reload 了一次,reload 后也还是会有一样的报错,不知道怎么解决了

感谢大神帮忙解答一下。

已经配置了还是提示:集群中未启动必要组件 NgMonitoring,部分功能将不可用。 - :ringer_planet: TiDB 技术问题 - TiDB 的问答社区 (asktug.com)

NgMonitoring 无法启动问题 - :ringer_planet: TiDB 技术问题 / 部署&运维管理 - TiDB 的问答社区 (asktug.com)
看看这个

刚看了下,我的 ng_monitoring 机器上没有 /data/tidb-data/prometheus-9090/docdb 文件。

看看日志吧,有没有什么报错之类的

tidb 相关所有的启动日志能在哪看到呢?看文档没找到 :expressionless:

image
看看这个路径下有没有报错信息

我去 /data/tidb-deploy/prometheus-9090/log 没看到日志,去 /data/tidb-deploy/prometheus-9090/bin 下执行了 ./ng-monitoring-service 报了这个错

但我去 ngmonitoring 的配置中看到 pd_servers 设置的是其他节点的地址,为什么这里是 127.0.0.1 呢

看看别人还有啥想法不?
或者你就把prometheus先缩容掉,然后再扩容一下,等于是重新部署了prometheus,再看看?

我把 prometheus 放到了 PD 节点上,然后手动启动了 ngmonitoring,结果好了。 :expressionless: 是不是 ngmonitoring 都没有去读配置文件里的 PD 地址

你这个现象看起来是的。你可以尝试把ngmonitoring读取的配置文件的ip改改,路径应该在 /data/tidb-deploy/prometheus-9090/conf 下,改完之后restart prometheus ,千万不要reload

1 个赞

解决了,细看了一下 ngmonitoring.toml 配置的 endpoints 节点里面是个数组,但是中间相隔没有逗号,加了逗号后,手动启动了一下 ngmonitoring 就好了。 :expressionless:

:rofl: 但是你使用的时候要注意,reload集群会更新各个组件的配置文件,到时候说不定又出现这个问题了

先提了个 issue,有问题再上去改一改,反正 ngmonitoring 不影响集群正常使用吧 :confounded:

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。