tidb 离线部署检查环境 SSH 报错

【 TiDB 使用环境】生产环境
【 TiDB 版本】 v6.5.3
【复现路径】
1、普通用户执行安装前检查命令 $ tiup cluster check ./topology.yaml --user jhdcp --ssh system

报错: Error: failed to fetch cpu-arch or kernel-name: executor.ssh.execute_failed: Failed to execute command over SSH for ‘jhdcp@xx.xx.xx.122:22’ {ssh_stderr: Connection timed out during banner exchange
, ssh_stdout: , ssh_command: export LANG=C; PATH=$PATH:/bin:/sbin:/usr/bin:/usr/sbin /usr/bin/sudo -H bash -c “uname -s”}, cause: exit status 255

2、但是我检查ssh 免密执行是正常的

【遇到的问题:问题现象及影响】
这个应该怎么处理呢?

【资源配置】

【附件:截图/日志/监控】
1、报错日志:
tiup-cluster-debug-2023-08-29-11-59-46.log.txt (38.3 KB)

2、topology.yaml 文件
topology.yaml (3.1 KB)

如果部署不是root用户,除了免密还要加所有sudo权限的

已经检查,都有sudo 权限的, 如上面截图, sudo uname -s 是可以 能获取内核参数的

/etc/ssh/ 把这个文件夹下的东西mv到tmp下,重新运行

121和122要做互信,可以试试ssh 122需不需要输入密码

tidb 用户登录中控机,通过 ssh 的方式登录目标机器 IP。如果不需要输入密码并登录成功,即表示 SSH 互信配置成功。

https://docs.pingcap.com/zh/tidb/stable/check-before-deployment#手动配置-ssh-互信及-sudo-免密码

看起来部分成功部分失败,看看失败的机器和成功的机器有啥区别
image

这个操作太危险了, ssh 都会受影响

ssh 互信是配置成功的

是的 , 而且执行多遍, 失败的机器还不同, 例如 :122、123 失败, 再执行一遍 有可能是 122、125 失败

:sweat_smile:这事什么高级写法,看不懂~~~

可以按官方文档验证一下么。

“connection timed out during banner exchange”.

=============
当 SSH 连接在握手阶段期间出现 “connection timed out during banner exchange” 报错时,通常是由于以下原因之一:

  1. 网络连接问题:可能存在网络连接故障或阻塞,导致无法建立 SSH 连接。您可以尝试检查网络连接是否正常,确保服务器和客户端之间的网络通畅。
  2. 防火墙或安全组配置:可能存在防火墙或安全组的配置问题,阻止了 SSH 连接的建立。请确保防火墙或安全组设置中允许 SSH 连接的通信流量通过,并验证您的网络安全策略。
  3. SSH 服务配置问题:可能存在 SSH 服务的配置问题,例如错误的端口设置或无效的 SSH 配置参数。请检查 SSH 服务器的配置文件(通常是 /etc/ssh/sshd_config),确保端口号、身份验证选项等设置正确。
  4. SSH 服务器问题:可能存在 SSH 服务器本身的问题,可能由于资源限制、服务异常或其他问题导致 SSH 连接失败。您可以尝试重启 SSH 服务器并检查系统日志以获取更多详细信息。

在调试此问题时,建议使用一些工具和方法来解决。您可以尝试使用 ping 命令检查网络连接,使用 telnet 命令测试 SSH 端口的可访问性,查看系统日志文件以获取更多错误信息等。如果问题仍然存在,建议咨询系统管理员或网络专家以获得更详细的帮助和支持。

看起来是权限问题

咋这么多人遇到ssh问题,我每次都是用有sudo权限的普通用户直接使用check apply自动配置的ssh,从来没遇到过问题 :grinning:

:sweat_smile:像我这种因为TiDB才第一次接触centos的,确实很多地方都很懵

检查一下sshd_config是否允许root