cluster创建成功但是启动失败

【 TiDB 使用环境】生产环境
【 TiDB 版本】v7.0.0
【遇到的问题:问题现象及影响】
在配置和检测集群时一切正常,集群创建成功后,启动集群失败,机器之间做了ssh互信,系统也都是Centos 7.9.2009,不知道是否是之前启动了playground的原因
【附件:截图/日志/监控】

手工启动下报错的pd试试

手动试下失败节点的ssh互相,能否成功

看日志先检查下ssh吧

直接在10.102.2.190这个机器执行systemctl start pd-2379.service试试

是否已经停止并清理了之前的Playground相关的进程和资源呢

手动启动时not found service呢,这是什么原因?中控机应该给这台机器安装了pd的吧,我没有手动去安装这台机器的tidb

能成功

进程关闭了,但是资源没有删除

/data/tidb-deploy/tikv-2379/scripts/run_tikv.sh
这个节点上找一下run_tikv.sh脚本,大概路径如上所示,执行下看看报错内容

我执行了上述命令,这里190已经启动了pd-server了,但是log文件依然报错说未启动

上面说错了,应该执行run_pd.sh
/data/tidb-deploy/pd-2379/scripts/run_pd.sh
但是你这pd-server已经起来了?
ps -ef |grep ps-server
看一下
再看一下/etc/systemd/system/pd-2379.service这个文件没有吗?

我根据你的命令改成了run_pd.sh,在/etc/systemd/system/pd-2379.service下确实没有这个文件

你看run_pd.sh里面没有生成pd-2379.service的命令吗?为啥没生成?

没有这个命令呢,我的路径是/data/cluster-deploy/pd-2379/scripts/run_pd.sh

奇怪了,你这脚本能执行,但是在本机没生成service。。。要不你手工生成一个
vi /etc/systemd/system/pd-2379.service
[Unit]
Description=pd service
After=syslog.target network.target remote-fs.target nss-lookup.target

[Service]
LimitNOFILE=1000000
LimitSTACK=10485760
User=tidb
ExecStart=/bin/bash -c ‘/data/cluster-deploy/pd-2379/scripts/run_pd.sh’
Restart=always

RestartSec=15s

[Install]
WantedBy=multi-user.target

然后
systemctl daemon-reload
system status pd-2379.service
看下

这个方法可以解决中控机启动pd失败的问题,我这边还有tikv等服务启动失败,我按照这个方式都试一下

手动创建pd-2379.service服务,能成功一段时间,但是过一段时间就自动关闭了,我不知道是什么问题

log

tiup cluster display tidb-xxxx看一下集群状态,我感觉你一开始是不是部署的有问题啊,正常部署完成肯定要生成service的

tidb部署跨了网段 会不会是因为网关或者防火墙 限制了机器之间通信 导致部署就没成功

1 个赞