tiup cluster reload间歇性出现“connection reset by peer”报错的问题

使用的tiup版本为:v1.2.3 tiup,cluster组件版本为:v1.3.0
问题描述:
安装binlog或者其他涉及修改配置的场景下经常需要执行tiup reload指令。近期发现在生产和虚机测试环境下都出现了tiup reload指令执行失败的问题,报错很统一:
ssh: handshake failed: read tcp 【执行机IP:PORT】->【目标机器】:22: read: connection reset by peer
现象总结:
我前后测试了很多次,reload之前会执行scale-in/out等命令,这些命令没有失败的。
使用不同的集群进行测试报错时信息一致,测试环境下出现问题的概率较低,生产环境下较高。
测试时多使用su - tidb -c “tiup cluster reload …”,后期测试tidb账户下直接执行 tiup cluster reload …也会偶尔遇到上述报错。
reload日志
这里上传其中一个reload的debug log:【已删除】
检查过sshd_config相关的配置未发现有相关限制,防火墙未检查。
补充:可以排除防火墙的原因。


以上是我连续3次执行同一个指令的现象,除命令本身的执行时间外,间隔未超过5秒。
两次报错的debug log报错信息与之前上传的文件一致。

:imp:裂开了,AUG没搜到的在官网找到了:
TiUP FAQ | PingCAP Docs
需要同时在中控机和所有目标节点的sshd_config中设置MaxSessions 1000+ MaxStartups 1000并重启sshd服务。
之前看sshd_config的时候看到MaxSessions 10这行被注释下意识的忽略掉了…

:+1:

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。