tidb版本为v3.0.3
参照 【SOP 系列 02】 Prometheus 等监控组件迁移 文档迁移Prometheus、pushgateway、grafana和alertmanager组件
涉及修改的inventory.ini配置文件如下:
[monitoring_servers]
prometheus ansible_host=ip1 prometheus_port=9590 pushgateway_port=9591
[grafana_servers]
grafana ansible_host=ip2 grafana_port=3500 grafana_collector_port=8997
[monitored_servers]
…
…
ip1 node_exporter_port=9100 blackbox_exporter_port=9115
ip2 node_exporter_port=9100 blackbox_exporter_port=9115
[alertmanager_servers]
alertmanager ansible_host=ip2 alertmanager_port=9593 alertmanager_cluster_port=9597
以下步骤均执行正常,无任何报错
ansible-playbook bootstrap.yml -l ip1
ansible-playbook deploy.yml -l ip1 -t prometheus
ansible-playbook deploy.yml -l ip1 -t pushgateway
ansible-playbook deploy.yml -l ip2 -t grafana
ansible-playbook deploy.yml -l ip2 -t altermanager
ansible-playbook deploy.yml -l ip2 -t node_exporter,blackbox_exporter
ansible-playbook deploy.yml -l ip1 -t node_exporter,blackbox_exporter
ansible-playbook start.yml -l ip1 -t prometheus
ansible-playbook start.yml -l ip1 -t pushgateway
ansible-playbook start.yml -l ip2 -t grafana
ansible-playbook start.yml -l ip2 -t altermanager
ansible-playbook start.yml -l ip1 -t node_exporter,blackbox_exporter
ansible-playbook start.yml -l ip2 -t node_exporter,blackbox_exporter
最后一个步骤,如下,出现如图报错
ansible-playbook rolling_update_monitor.yml
经排查ip1和ip2上有部分组件的文件并未包含所需要的完整的Prometheus、pushgateway、grafana和alertmanager组件相关文件,下面2个图为ip1和ip2对应的目录结构图。ssh互信是正常的,2个ip对应机器新建成功了部分目录和同步成功了部分文件。
帮确认下是什么原因? 该怎么排查,谢谢