【 TiDB 使用环境】生产环境
【 TiDB 版本】v7.0.0
【遇到的问题:问题现象及影响】
在配置和检测集群时一切正常,集群创建成功后,启动集群失败,机器之间做了ssh互信,系统也都是Centos 7.9.2009,不知道是否是之前启动了playground的原因
【附件:截图/日志/监控】
手工启动下报错的pd试试
手动试下失败节点的ssh互相,能否成功
看日志先检查下ssh吧
直接在10.102.2.190这个机器执行systemctl start pd-2379.service试试
是否已经停止并清理了之前的Playground相关的进程和资源呢
手动启动时not found service呢,这是什么原因?中控机应该给这台机器安装了pd的吧,我没有手动去安装这台机器的tidb
能成功
进程关闭了,但是资源没有删除
/data/tidb-deploy/tikv-2379/scripts/run_tikv.sh
这个节点上找一下run_tikv.sh脚本,大概路径如上所示,执行下看看报错内容
上面说错了,应该执行run_pd.sh
/data/tidb-deploy/pd-2379/scripts/run_pd.sh
但是你这pd-server已经起来了?
ps -ef |grep ps-server
看一下
再看一下/etc/systemd/system/pd-2379.service这个文件没有吗?
你看run_pd.sh里面没有生成pd-2379.service的命令吗?为啥没生成?
奇怪了,你这脚本能执行,但是在本机没生成service。。。要不你手工生成一个
vi /etc/systemd/system/pd-2379.service
[Unit]
Description=pd service
After=syslog.target network.target remote-fs.target nss-lookup.target
[Service]
LimitNOFILE=1000000
LimitSTACK=10485760
User=tidb
ExecStart=/bin/bash -c ‘/data/cluster-deploy/pd-2379/scripts/run_pd.sh’
Restart=always
RestartSec=15s
[Install]
WantedBy=multi-user.target
然后
systemctl daemon-reload
system status pd-2379.service
看下
这个方法可以解决中控机启动pd失败的问题,我这边还有tikv等服务启动失败,我按照这个方式都试一下
tiup cluster display tidb-xxxx看一下集群状态,我感觉你一开始是不是部署的有问题啊,正常部署完成肯定要生成service的
tidb部署跨了网段 会不会是因为网关或者防火墙 限制了机器之间通信 导致部署就没成功