TiUP cluster deploy 卡住

【 TiDB 使用环境`】生产 Ubuntu 22.04 LTS
【 TiDB 版本】v6.1.0
【遇到的问题】
tiup cluster deploy 的時後 常常 不同步奏卡住. 有時後 copy , mkdir

image

以經試過 tiup --ssh system

也卻定 control machine ssh 都可以互連 , keyless ssh 也有

LOG ::

signal: killed”, “errorVerbose”: “executor.ssh.execute_failed: Failed to execute command over SSH for ‘tidb@172.21.32.155:22’ {ssh_stderr: , ssh_stdout: , ssh_command: export LANG=C; PATH=$PATH:/bin:/sbin:/usr/bin:/usr/sbin /usr/bin/sudo -H bash -c “test -d /data/tidb/tidb-deploy || (mkdir -p /data/tidb/tidb-deploy && chown tidb:$(id -g -n tidb) /data/tidb/tidb-deploy)”}, cause: signal: killed

2022-07-14T14:22:03.590-0400 DEBUG TaskFinish {“task”: “Mkdir: host=172.21.32.155, directories=‘/data/tidb/tidb-deploy/monitor-19100’,‘/data/tidb/tidb-data/monitor-19100’,‘/data/tidb/tidb-deploy/monitor-19100/log’,‘/data/tidb/tidb-deploy/monitor-19100/bin’,‘/data/tidb/tidb-deploy/monitor-19100/conf’,‘/data/tidb/tidb-deploy/monitor-19100/scripts’”, “error”: “executor.ssh.execute_failed: Failed to execute command over SSH for ‘tidb@172.21.32.155:22’ {ssh_stderr: , ssh_stdout: , ssh_command: export LANG=C; PATH=$PATH:/bin:/sbin:/usr/bin:/usr/sbin /usr/bin/sudo -H bash -c "test -d /data/tidb/tidb-deploy || (mkdir -p /data/tidb/tidb-deploy && chown tidb:$(id -g -n tidb) /data/tidb/tidb-deploy)"}, cause: signal: killed”, “errorVerbose”: “executor.ssh.execute_failed: Failed to execute command over SSH for ‘tidb@172.21.32.155:22’ {ssh_stderr: , ssh_stdout: , ssh_command: export LANG=C; PATH=$PATH:/bin:/sbin:/usr/bin:/usr/sbin /usr/bin/sudo -H bash -c "test -d /data/tidb/tidb-deploy || (mkdir -p /data/tidb/tidb-deploy && chown tidb:$(id -g -n tidb) /data/tidb/tidb-deploy)"}, cause: signal: killed
at github.com/pingcap/tiup/pkg/cluster/executor.(*NativeSSHExecutor).Execute()
\tgithub.com/pingcap/tiup/pkg/cluster/executor/ssh.go:338
at github.com/pingcap/tiup/pkg/cluster/executor.(*CheckPointExecutor).Execute()
\tgithub.com/pingcap/tiup/pkg/cluster/executor/checkpoint.go:85
at github.com/pingcap/tiup/pkg/cluster/task.(*Mkdir).Execute()
\tgithub.com/pingcap/tiup/pkg/cluster/task/mkdir.go:61
at github.com/pingcap/tiup/pkg/cluster/task.(*Serial).Execute()
\tgithub.com/pingcap/tiup/pkg/cluster/task/task.go:86
at github.com/pingcap/tiup/pkg/cluster/task.(*StepDisplay).Execute()
\tgithub.com/pingcap/tiup/pkg/cluster/task/step.go:111
at github.com/pingcap/tiup/pkg/cluster/task.(*Parallel).Execute.func1()
\tgithub.com/pingcap/tiup/pkg/cluster/task/task.go:144
at runtime.goexit()
\truntime/asm_amd64.s:1571
github.com/pingcap/errors.AddStack
\tgithub.com/pingcap/errors@v0.11.5-0.20201126102027-b0a155152ca3/errors.go:174
github.com/pingcap/errors.Trace
\tgithub.com/pingcap/errors@v0.11.5-0.20201126102027-b0a155152ca3/juju_adaptor.go:15
github.com/pingcap/tiup/pkg/cluster/task.(*Mkdir).Execute
\tgithub.com/pingcap/tiup/pkg/cluster/task/mkdir.go:63
github.com/pingcap/tiup/pkg/cluster/task.(*Serial).Execute
\tgithub.com/pingcap/tiup/pkg/cluster/task/task.go:86
github.com/pingcap/tiup/pkg/cluster/task.(*StepDisplay).Execute
\tgithub.com/pingcap/tiup/pkg/cluster/task/step.go:111
github.com/pingcap/tiup/pkg/cluster/task.(*Parallel).Execute.func1
\tgithub.com/pingcap/tiup/pkg/cluster/task/task.go:144
runtime.goexit
\truntime/asm_amd64.s:1571”}

  1. TiUP cluster 用到的三个账户 参考一下
  2. 防火墙是否开启

hi 我們所有都是用 “tidb” 這個 user. 從 中控機 ssh tidb@172.21.32.155 是沒問題的可是 tiup 就是會卡著

所有节点的tidb用户是否配置了sudo权限呢

有的, tidb user 可以 sudo ::
image

https://docs.pingcap.com/zh/tidb/stable/check-before-deployment#手动配置-ssh-互信及-sudo-免密码

手动配置一下试试

有的, keyless ssh 有設定

1.检查各个节点空间是否充足
2.root用户和tidb用户各个节点都互信

thanks, 都檢查過了, 目前看起來比較像是 ssh 隨即不回應
比如說 deploy 的時候 有 .123, .124, .125 三台 tikv,
有時候 .123 卡住 有時候.124, .125 隨機的 . Ctrl+^C cancel deploy 了好幾次
總是不成功 .

有一次把它放在 screen 裡面 過了一晚還是在 mkdir deploy 轉圈圈

目前看起來比較像是 ssh 隨即不回應

感觉可以放个大招,换成Centos7操作系统试试

会不会机器 ssh 版本和 tiup 默认的 ssh 版本不一致?
参考下下面的文档,加个参数指定系统版本试试?


https://docs.pingcap.com/zh/tidb/stable/tiup-component-dm#--ssh-string默认-builtin

這個也嘗試過了 (–ssh system) 也會隨機卡住
-c 也嘗試過 1 ~ 10 還是會卡住

thanks

建议部署之前先使用tiup cluster check ./*.yaml 通过这种方式检查下看看有没有fail的选项。,如果有需要修复好。

该主题在最后一个回复创建后60天后自动关闭。不再允许新的回复。