tiup cluster reload -R prometheius 失败

修改prometheus下相关告警参数阀值后
执行tiup cluster reload tidbname -R prometheus .显示成功 ,但是tiup cluster display tidbname。显示prometheus节点down状态。执行tiup cluster start tidbname -R prometheus 后。节点显示up状态。prometheus日志也没有报错。
应该如何分析。

普罗起的慢点,你试试reload后多等会

tiup cluster reload tidbname -N ip:port
试试

生产环境 不能随便试

根据prometheus.log显示 是成功了的。但是等有6 7分钟还是显示down状态。怎么分析呢?

对于 已经 stop 的进程,reload 不会去启动它是预期行为

现在什么状态了,还是显示down么?

现在是up 当时等了一会 一直显示down后 就直接执行tiup cluster start tidb -R prometheus命令了 。执行过后,display就显示 up 了。看日志内容 reload 和 start 产生的日志一样的 都是显示 msg=”TSDB started“ 。但是display的结果不一样。

版本是啥?

4.0.15

我这个是5.0.0版本
完成后会显示
Reloaded cluster tidbname successfully
字样,你看你当时报错没?

[root@pd ~]# tiup cluster reload tidbname-R prometheus              
tiup is checking updates for component cluster ...
A new version of cluster is available:
   The latest version:         v1.9.3
   Local installed version:    v1.9.0
   Update current component:   tiup update cluster
   Update all components:      tiup update --all

Starting component `cluster`: /root/.tiup/components/cluster/v1.9.0/tiup-cluster /root/.tiup/components/cluster/v1.9.0/tiup-cluster reload tidb-test -R prometheus
Will reload the cluster tidbname with restart policy is true, nodes: , roles: prometheus.
Do you want to continue? [y/N]:(default=N) y
+ [ Serial ] - SSHKeySet: privateKey=/root/.tiup/storage/cluster/clusters/tidb-test/ssh/id_rsa, publicKey=/root/.tiup/storage/cluster/clusters/tidb-test/ssh/id_rsa.pub
+ [Parallel] - UserSSH: user=tidb, host=192.168.80.14
+ [Parallel] - UserSSH: user=tidb, host=192.168.80.11
+ [Parallel] - UserSSH: user=tidb, host=192.168.80.10
+ [Parallel] - UserSSH: user=tidb, host=192.168.80.12
+ [Parallel] - UserSSH: user=tidb, host=192.168.80.10
+ [Parallel] - UserSSH: user=tidb, host=192.168.80.10
+ [Parallel] - UserSSH: user=tidb, host=192.168.80.10
+ [Parallel] - UserSSH: user=tidb, host=192.168.80.13
+ [ Serial ] - UpdateTopology: cluster=tidb-test
+ Refresh instance configs
  - Generate config pd -> 192.168.80.10:2379 ... Done
  - Generate config tikv -> 192.168.80.11:20160 ... Done
  - Generate config tikv -> 192.168.80.12:20160 ... Done
  - Generate config tidb -> 192.168.80.13:4000 ... Done
  - Generate config tiflash -> 192.168.80.14:9000 ... Done
  - Generate config prometheus -> 192.168.80.10:9090 ... Done
  - Generate config grafana -> 192.168.80.10:3000 ... Done
  - Generate config alertmanager -> 192.168.80.10:9093 ... Done
+ Refresh monitor configs
  - Generate config node_exporter -> 192.168.80.13 ... Done
  - Generate config node_exporter -> 192.168.80.14 ... Done
  - Generate config node_exporter -> 192.168.80.10 ... Done
  - Generate config node_exporter -> 192.168.80.11 ... Done
  - Generate config node_exporter -> 192.168.80.12 ... Done
  - Generate config blackbox_exporter -> 192.168.80.10 ... Done
  - Generate config blackbox_exporter -> 192.168.80.11 ... Done
  - Generate config blackbox_exporter -> 192.168.80.12 ... Done
  - Generate config blackbox_exporter -> 192.168.80.13 ... Done
  - Generate config blackbox_exporter -> 192.168.80.14 ... Done
+ [ Serial ] - Upgrade Cluster
Upgrading component prometheus
        Restarting instance 192.168.80.10:9090
        Restart instance 192.168.80.10:9090 success
Reloaded cluster `tidbname` successfully

:rofl:所以看起来是tiup cluster display 状态有延迟么

reload显示成功了的。reload操作后显示的日志 和 start操作后显示的日志内容都是一样的。 就是display后显示不一样。

那好像没啥问题
唯一的解释,:joy:tiup cluster display卡了?你再观察观察吧

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。