不能停止 node_exporter-9100

【 TiDB 使用环境】/测试/
【 TiDB 版本】5.4.3
【复现路径】:安装tidb 后销毁销毁不了
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】

报错:
Error: failed to stop: xx.xx.xx.xx node_exporter-9100.service, please check the instance’s log() for more detail.: timed out waiting for port 9100 to be stopped after 1m0s

日志:
2024/11/25 17:34:34.279 +08:00] [INFO] [base_client.go:104] [“[pd] init cluster id”] [cluster-id=xxxxxxxxx]
[2024/11/25 17:34:34.279 +08:00] [INFO] [client.go:648] [“[pd] tso dispatcher created”] [dc-location=global]
[2024/11/25 17:34:34.279 +08:00] [ERROR] [client.go:845] [“[pd] update connection contexts failed”] [dc=global] [error=“rpc error: code = Canceled desc = context canceled”]
[2024/11/25 17:34:34.279 +08:00] [INFO] [client.go:666] [“[pd] exit tso dispatcher”] [dc-location=global]
[2024/11/25 17:34:34.280 +08:00] [FATAL] [terror.go:292] [“unexpected error”] [error=“no pump found in pd”]
[stack=“github.com/pingcap/tidb/parser/terror.MustNil\n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/tidb/parser/terror/terror.go:292\nmain.setupBinlogClient\n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/tidb/tidb-server/main.go:328\nmain.main\n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/tidb/tidb-server/main.go:199\nruntime.main\n\t/usr/local/go/src/runtime/proc.go:225”] [stack=“github.com/pingcap/tidb/parser/terror.MustNil\n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/tidb/parser/terror/terror.go:292\nmain.setupBinlogClient\n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/tidb/tidb-server/main.go:328\nmain.main\n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/tidb/tidb-server/main.go:199\nruntime.main\n\t/usr/local/go/src/runtime/proc.go:225”]

topology.yaml :
global:
user: “tidb”
ssh_port: 22
deploy_dir: “/data/tidb/tidb-deploy”
data_dir: “/data/tidb/tidb-data”

server_configs:
tidb:
performance.txn-total-size-limit: 10737418000
pd:
replication.enable-placement-rules: true

pd_servers:

  • host: a
  • host: b
  • host: c

tidb_servers:

  • host: a
  • host: b
  • host: c

tikv_servers:

  • host: a
  • host: b
  • host: c

monitoring_servers:

  • host: a

grafana_servers:

  • host: a

alertmanager_servers:

  • host: a

现在是启动启动不了,销毁销毁不了
:imp:

你这是出现了两个问题,第一个 node_exporter-9100 启动不起来,大概率那台机的9100端口被某个服务占用了,导致无法启动;第二个,no pump found in pd,你这是在配置文件中开了 binlog.enable: true 的选项,一步步排查下

这个9100端口一直开着,而且关闭不掉

第二个我更改一下配置文件,现在不知来的及不

增加 --force 可以卸载成功,更改配置文件重装就好了 :handshake:

ps -ef | grep node_expor ,然后kill掉,再重新安装

kill 不行,无限重启 :rofl:

systemctl 里面找找有没有 node_expor

  1. 检查服务状态
    首先,您需要检查 node_exporter-9100.service 服务的状态,确认它是否正在运行。您可以使用 systemctl status node_exporter-9100.service 命令来查看服务状态。

  2. 手动停止服务
    如果服务正在运行,您可以尝试手动停止它。使用 systemctl stop node_exporter-9100.service 命令来停止服务。

  3. 检查端口占用
    报错信息中提到了端口 9100,您需要检查该端口是否被其他进程占用。可以使用 netstat -tulnp | grep node_exporter 来查看端口占用情况。

  4. 清理残留文件
    如果 tiup cluster destroy 命令没有完全清理集群,您可能需要手动删除一些文件。根据官方文档,销毁集群会停止集群、删除日志目录、部署目录和数据目录,如果这些目录的父目录是由 tiup-cluster 创建的,也会一并删除。

  5. 检查配置文件
    您提供的 topology.yaml 文件中包含了监控相关的配置,确保 monitored 部分的配置正确,特别是 node_exporter_port 是否设置为 9100,以及是否有其他配置可能导致服务无法停止。

  6. 使用 TiUP 清理
    如果上述步骤无法解决问题,您可以尝试使用 tiup cluster clean 命令来清理残留的集群信息。

  7. 检查日志文件
    查看 node_exporter 的日志文件,通常位于 /var/log/node_exporter/,以获取更多关于服务无法停止的详细信息。

  8. 重启系统
    如果服务因为某些原因无法停止,重启系统可能会帮助释放资源,之后再次尝试销毁操作。

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。