tidb-监控重启

烂番薯0 · 2023 年1 月 13 日 02:30

之前使用
tiup cluster stop tidb-test -R alertmanage prometheus grafana 关闭了这三个角色
现在想启动这三个角色，发现启动不了报错了

Error: failed to start alertmanager: failed to start: 10.237.103.68 alertmanager-9093.service, please check the instance’s log(/opt/tidb-deploy/alertmanager-9093/log) for more detail.: timed out waiting for port 9093 to be started after 2m0s

请问各位大神这是什么情况

ti-tiger · 2023 年1 月 13 日 02:45

字面看是连接超时，还是要看日志

ffeenn · 2023 年1 月 13 日 02:46

如上面所说，/opt/tidb-deploy/alertmanager-9093/log 下的日志打包发上来。

tidb菜鸟一只 · 2023 年1 月 13 日 02:46

看下这个alertmanager-9093.service这个服务还在不在

烂番薯0 · 2023 年1 月 13 日 02:49

看了一下这个下面的路径。没有这个目录

烂番薯0 · 2023 年1 月 13 日 02:50

不在，这个服务也是down，而且路径下没有这个目录。

烂番薯0 · 2023 年1 月 13 日 02:50

没有这个目录

tidb菜鸟一只 · 2023 年1 月 13 日 03:07

tiup cluster display tidb-test看看，tiup cluster edit-config tidb-test看下，你这目录都没有？那你是这个主机部署的吗

xingzhenxiang · 2023 年1 月 13 日 06:04

启动集群操作会按 PD → TiKV → Pump → TiDB → TiFlash → Drainer → TiCDC → Prometheus → Grafana → Alertmanager 的顺序启动整个 TiDB 集群所有组件，是否是按照顺序启动的？

烂番薯0 · 2023 年1 月 13 日 06:23

嗯嗯，是的

烂番薯0 · 2023 年1 月 13 日 06:24

是的，是按照这个顺序启动的，但是不知道为什么启动以后没有目录，然后超时，查看目录日志，没有这个目录

tomsence · 2023 年1 月 14 日 07:17

启动时候使用-R alertmanage prometheus grafana 参数了吗? -R参数的说明是在启动时有效

Tank001 · 2023 年1 月 31 日 01:15

现在整完了 , 最后是啥问题导致的呀

烂番薯0 · 2023 年2 月 2 日 09:25

还是没有，起不起来，集群重启也不行，最后直接放弃了

srstack · 2023 年2 月 2 日 15:20

看起来是 alertmanager 组件丢失了，可以试着 scale-in -N 10.237.103.68:9093 --force 强制缩容掉，然后重新 scale-out 出来

db_user · 2023 年2 月 3 日 01:49

你看机器上还有9093端口的监听没有，这种一般是有system启动的node_exporter等把端口占用了，把对应的关掉就可以起来了

烂番薯0 · 2023 年2 月 3 日 02:24

9093端口没有启，也没有被占用

db_user · 2023 年2 月 3 日 02:53

这个目录有么，如果没有的话感觉像是走错配置文件了，是不是有好几个版本的tiup在不同用户上

烂番薯0 · 2023 年2 月 3 日 03:07

这个目录是存在的，但是没有promethus的这个目录，之前部署的时候是存在，但是关闭了以后就没有了

db_user · 2023 年2 月 3 日 03:11

stop会把目录干没这我真第一次见，tip cluster display还能看到prometheus这几项么，如果没有的话可能是有人误缩容了吧，再给扩容回来，如果有的话你看看prometheus的目录还有备份没，有的话挪过来一份再启动