tiup 扩容失败,提示 read tcp IP:端口->IP:端口: read: connection reset by peer

【 TiDB 使用环境】生产环境
【 TiDB 版本】V6.5.1
【复现路径】
【遇到的问题:问题现象及影响】
在生产环境中,tiup版本是1.11.3,中控机时192.168.1.62,部署tiup的用户是hcicloud,目标机是192.168.1.160,需要在目标机上扩容一个tikv节点,在执行tiup cluster check tidb-test ./scale-out-pd.yml --cluster --user root 的时候,提示报错 Error: executor.ssh.execute_failed: Failed to execute command over SSH for ‘root@192.168.1.160:22’ {ssh_stderr: , ssh_stdout: , ssh_command: export LANG=C; PATH=$PATH:/bin:/sbin:/usr/bin:/usr/sbin /usr/bin/sudo -H bash -c “sysctl -a”}, cause: ssh: handshake failed: read tcp 192.168.1.62:49130->192.168.1.160:22: read: connection reset by peer,
1、中控机hcicloud和目标机root用户之间已经配置了免密,在中控机上手工通过ssh root@192.168.1.160 可以正常登录到目标机并执行 sysctl -a;
2、两台服务器上的防火墙都已经关闭了
3、两台服务器上的sshd_config 文件中的 MaxSessions 20000, MaxStartups 20000 都设置过了;
4、已经尝试过通过中控机扩容其他的服务器,可以正常操作;
大佬们,帮忙看看啥情况,拜托了,该用的方案都用完了,完全没有思路了
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】


tiup的日志如下:
tiup-cluster-debug-2024-12-24-11-38-31.log (98.7 KB)

–user root删了试试

互信配置的有问题吧,下面的操作都做了么?

“connection reset by peer” 错误通常表示连接在远程主机端被重置。

  1. 中间被防火墙reset,同网段一般没啥问题,除非IP占用
  2. ssh 服务主动限制该IP访问
  3. 文件描述符耗尽

如果安装的事8.x版本的话,tiup 后边执行加上 -i 证书路径试试

如果删除的话,会调用目标机的同一个用户,会出现集群中的其他节点因为tmp文件夹权限问题报错

这些也都做过,手动执行ssh也都验证过,没啥问题

文件描述符我都调整成65535了,两边服务器的防火墙都关闭了,因为用的是云主机,也检查过,服务器间的22端口都是开放状态

tidb是6.5.1,tiup是1.11.3,服务器是centos7