tidb-监控重启

之前使用
tiup cluster stop tidb-test -R alertmanage prometheus grafana 关闭了这三个角色
现在想启动这三个角色,发现启动不了报错了

Error: failed to start alertmanager: failed to start: 10.237.103.68 alertmanager-9093.service, please check the instance’s log(/opt/tidb-deploy/alertmanager-9093/log) for more detail.: timed out waiting for port 9093 to be started after 2m0s

请问各位大神这是什么情况

字面看是连接超时,还是要看日志

如上面所说,/opt/tidb-deploy/alertmanager-9093/log 下的日志打包发上来。

看下这个alertmanager-9093.service这个服务还在不在

看了一下这个下面的路径。没有这个目录

不在,这个服务也是down,而且路径下没有这个目录。

没有这个目录

tiup cluster display tidb-test看看,tiup cluster edit-config tidb-test看下,你这目录都没有?那你是这个主机部署的吗

启动集群操作会按 PD → TiKV → Pump → TiDB → TiFlash → Drainer → TiCDC → Prometheus → Grafana → Alertmanager 的顺序启动整个 TiDB 集群所有组件,是否是按照顺序启动的?

嗯嗯,是的

是的,是按照这个顺序启动的,但是不知道为什么启动以后没有目录,然后超时,查看目录日志,没有这个目录

启动时候使用-R alertmanage prometheus grafana 参数了吗? -R参数的说明是在启动时有效

现在整完了 , 最后是啥问题导致的呀

还是没有,起不起来,集群重启也不行,最后直接放弃了

看起来是 alertmanager 组件丢失了,可以试着 scale-in -N 10.237.103.68:9093 --force 强制缩容掉,然后重新 scale-out 出来

你看机器上还有9093端口的监听没有,这种一般是有system启动的node_exporter等把端口占用了,把对应的关掉就可以起来了

9093端口没有启,也没有被占用

这个目录有么,如果没有的话感觉像是走错配置文件了,是不是有好几个版本的tiup在不同用户上

这个目录是存在的,但是没有promethus的这个目录,之前部署的时候是存在,但是关闭了以后就没有了

stop会把目录干没这我真第一次见,tip cluster display还能看到prometheus这几项么,如果没有的话可能是有人误缩容了吧,再给扩容回来,如果有的话你看看prometheus的目录还有备份没,有的话挪过来一份再启动