集群安装过程因ssh超时中断,如重新安装集群需要手动清理各节点已经复制好文件及数据吗,有没有命令可以一键完成?

【 TiDB 使用环境】七台虚拟机搭建最小拓扑架构的测试环境
【 TiDB 版本】5.0.4
【遇到的问题】tiup cluster deploy过程中报‘Failed to execute command over SSH’,‘cause: Run Command Timeout’
【复现路径】执行了三条命令,分别是
tiup cluster check ./topology.yaml --user root -p
tiup cluster check ./topology.yaml --apply --user root -p
tiup cluster deploy tidb-test v5.4.0 ./topology.yaml --user root -p

【问题现象及影响】
前两条命令正确执行,只有警告,无报错,第三条命令收到报错信息,集群安装中断

现在我想重新安装,重新执行tiup cluster check,发现各节点已经有之前复制完成的文件存在,手动删除已存在的文件应该是可行的,但是我想问下有命令可以做到这个吗?

Error: stderr: : executor.ssh.execute_failed: Failed to execute command over SSH for ‘tidb@10.50.6.239:22’ {ssh_stderr: , ssh_stdout: , ssh_command: export L
ANG=C; PATH=$PATH:/bin:/sbin:/usr/bin:/usr/sbin tar --no-same-owner -zxf /data/tidb-deploy/tiflash-9000/bin/tiflash-v5.4.0-linux-amd64.tar.gz -C /data/tidb-deploy/tiflash-9000/bin && rm /data/tidb-deploy/tiflash-9000/bin/tiflash-v5.4.0-linux-amd64.tar.gz}, cause: Run Command Timeout

3 个赞

https://tidb.io/blog/694da37a

https://docs.pingcap.com/zh/tidb/stable/check-before-deployment#手动配置-ssh-互信及-sudo-免密码

这两个链接可以看一下

2 个赞

你这个是tiflash报错,找不到tiflash节点,集群拓扑里有tiflash吗?

1 个赞

谢谢老师,您发的两篇文章我看刚看完了,对 TiUP cluster过程有了更详细的了解,不过还是没有解答了我的疑惑。
我的整个集群各节点都是按照密文文档统一配置,然后在中控机上执行的命令,6台机器都正常,1台报ssh连接超时,看了报错日志,但没看懂。
还有就是现在我想重新部署集群,但是在做检查时报错,因为之前的部署有复制文件到各节点机器上,那现在手动删除文件应该是可以的,但是有没有tiup或其他什么命令可以操作呢?

2 个赞


有的,这里有写
而且不是找不到tiflash节点,我在tiflash节点上看过了,上面有已经复制完成的部分文件和数据

2 个赞

tiup那台主机你和tiflash节点做ssh互信了吧?如果做了,就是部署的时候,网络异常,tiflash部署导致失败了

tiup cluster stop +集群名

然后

tiup cluster destroy +集群名

当业务下线之后,如果想将集群占有的机器释放出来让给其他业务使用,需要清理掉集群上的数据以及部署的二进制文件。 tiup cluster destroy 命令会执行以下操作销毁集群:

  • 停止集群
  • 对于每个服务,删除其日志目录,部署目录,数据目录
  • 如果各个服务的数据目录/部署目录的父目录是由 tiup-cluster 创建的,也一并删除

语法

tiup cluster destroy <cluster-name> 

<cluster-name> 为要销毁的集群名字。

选项

–force

  • 在某些情况下,有可能集群中的某些节点已经宕机,导致无法通过 SSH 连接到节点进行操作,这个时候可以通过 --force 选项忽略这些错误。
1 个赞

我没有做手动互信,全部交给tiup去操作的,我已经登陆到tiflash节点去看过了,上面已经有部分创建的目录以及复制过来的文件,所以我觉得ssh连接应该不是问题

1 个赞


这个命令我用过了,但是集群根本不存在,所以不起作用

1 个赞

因为tiflash没部署成功,集群部署失败了,只能手动删了
感觉你这个不是ssh互信的问题,可能是部署时候网络异常

经过认真学习老师分享的两篇文章,我也是这么认为的,看来只能手动删除目录、文件以及用户了

谢谢老师的耐心回复

1 个赞

:handshake:别叫老师:joy:,大家一起互相学习,互相帮助,挺好的,你再部署一次试试,加油:fist:

学习了。我也遇到过类似情况。

1 个赞

这个应该是网络问题,多试几次

1 个赞

ssh互信 问题,或者网络不同应该。

不执行删除,重新deploy就可以了吧

不行,我已经试过了,因为之前的安装并没完成,也就是说集群不存在,所以deploy命令也无法执行

建议手动删除之后,重新部署。

1 个赞

嗯,感谢回复,现在看来只能这样操作了

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。