tikv节点的blackbox_e和node_exporter 服务启动不了

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:V3.0.8
  • 【问题描述】:

需要重启一台tikv服务器,先通过命令 ansible-playbook stop.yml -l 节点,然后手动reboot机器,之后在ansible机器上执行 ansible-playbook start.yml -l 节点之后,服务器上这两个服务器起不来

对应的监控面板

可以按照如下的步骤排查:

  1. systmctl list-unit 看下有没有 node_exporter 以及 blackbox_exporter 的服务
  2. 手工到该机器启动该服务看下能否正常启动。
  3. 如果不能启动的话可以根据系统日志的报错尝试排查。

1 你的命令是不是发错了 systmctl list-units 看了下,确实没有

2 手工到改机器下怎么手动启动,请提供具体路径和启动命令

3 请问要提供那个日志给你

Ps:我在ansible上执行ansible-playbook stop.yml命令看到相关的命令下面执行流程确实有stop这两个服务的记录,但是启动的时候没有

  1. 麻烦确认下inventory.ini 的 [monitored_servers] 有没有正确添加监控的机器ip
  2. 可以尝试重新 ansible-playbook deploy.yml -l {问题机器ip} 一下看下有没有正常部署 Systemctl list-units 。

第二个命令是不是不应该执行啊,我之前三个节点都是正常的,因为需要,我只是重启reboot其中一台,你怎么让我重新执行deploy啊,那之前数据岂不是丢失了?执行后,我在start.yml,还是那两个服务没有起来

  1. 确认下问题机器 {deploy_path}/bin/node_exporter 以及 {deploy_path}/scripts/run_node_exporter.sh 是否存在
  2. ps -ef |grep exporter 有没有对应的进程
  3. 尝试手工执行 {deploy_path}/scripts/run_node_exporter.sh
  4. 确认下 {deploy_path}/log/node_exporter.log 有没有异常

你的路径不对吧。我看你截图路径应该是在 ‘/home/tidb/deploy/scripts’ 以及 ‘/home/tidb/deploy/bin’

手动执行这两个sh,现在服务起来了 为什么我用ansible-playbook stop.yml -l 节点和ansible-playbook start.yml -l 节点这两个node_exporter 以及 blackbox_exporter 服务起不来呢

  1. 确认下 {deploy_path}/log/node_exporter.log 有没有异常
  2. 手工执行Systemctl restart node_exporter.service 看下有没有相关的报错。
  3. ansible-playbook start.yml 是有相关的调用逻辑的。详细可以分析下自己的配置以及操作步骤是否有问题。