tiup 扩容失败,提示 read tcp IP:端口->IP:端口: read: connection reset by peer

【 TiDB 使用环境】生产环境
【 TiDB 版本】V6.5.1
【复现路径】
【遇到的问题:问题现象及影响】
在生产环境中,tiup版本是1.11.3,中控机时192.168.1.62,部署tiup的用户是hcicloud,目标机是192.168.1.160,需要在目标机上扩容一个tikv节点,在执行tiup cluster check tidb-test ./scale-out-pd.yml --cluster --user root 的时候,提示报错 Error: executor.ssh.execute_failed: Failed to execute command over SSH for ‘root@192.168.1.160:22’ {ssh_stderr: , ssh_stdout: , ssh_command: export LANG=C; PATH=$PATH:/bin:/sbin:/usr/bin:/usr/sbin /usr/bin/sudo -H bash -c “sysctl -a”}, cause: ssh: handshake failed: read tcp 192.168.1.62:49130->192.168.1.160:22: read: connection reset by peer,
1、中控机hcicloud和目标机root用户之间已经配置了免密,在中控机上手工通过ssh root@192.168.1.160 可以正常登录到目标机并执行 sysctl -a;
2、两台服务器上的防火墙都已经关闭了
3、两台服务器上的sshd_config 文件中的 MaxSessions 20000, MaxStartups 20000 都设置过了;
4、已经尝试过通过中控机扩容其他的服务器,可以正常操作;
大佬们,帮忙看看啥情况,拜托了,该用的方案都用完了,完全没有思路了
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】


tiup的日志如下:
tiup-cluster-debug-2024-12-24-11-38-31.log (98.7 KB)

–user root删了试试

互信配置的有问题吧,下面的操作都做了么?

“connection reset by peer” 错误通常表示连接在远程主机端被重置。

  1. 中间被防火墙reset,同网段一般没啥问题,除非IP占用
  2. ssh 服务主动限制该IP访问
  3. 文件描述符耗尽

如果安装的事8.x版本的话,tiup 后边执行加上 -i 证书路径试试

如果删除的话,会调用目标机的同一个用户,会出现集群中的其他节点因为tmp文件夹权限问题报错

这些也都做过,手动执行ssh也都验证过,没啥问题

文件描述符我都调整成65535了,两边服务器的防火墙都关闭了,因为用的是云主机,也检查过,服务器间的22端口都是开放状态

tidb是6.5.1,tiup是1.11.3,服务器是centos7

目标服务器的selinux是否有关闭?

已经关闭了
image

–user root -p 方式不用免密试试

这个方案也尝试过了,最后也还是提示这个报错

加个 --ssh system 试试。

也试过,目前出现的一个问题是直接执行scale-out,结果可以创建data-deploy,但是没有办法创建第二层文件夹,不清楚是为什么,报错依然是这个报错

这个错误我也遇到过,部署文档里有visudo操作,然后添加如下配置:
tidb ALL=(ALL) NOPASSWD: ALL

这个操作是在目标机器上么?我在目标机器上也添加了这个,还是提示这个报错,目前是可以创建tidb-deploy这个目录,但是第二层目录 pd-2379 却创建不上

可以创建 tidb-deploy 指的是 tiup 已经自动创建出来了吗? 还是你手动创建的?

我看你描述写的 部署tiup 的 用户是 hcicloud , 为啥下面都是在用root 用户操作 su 到 hcicloud 这个用户,然后不指定 --user 有试过吗?

看着像是ssh的问题,试试这个呢go 执行ssh 报错ssh: handshake failed: read tcp xxx:->xxx:22: read: connection reset by peer - o蹲蹲o - 博客园