tiup cluster reload间歇性出现“connection reset by peer”报错的问题

Artisan · 2020 年12 月 25 日 07:33

使用的tiup版本为：v1.2.3 tiup，cluster组件版本为：v1.3.0
问题描述：
安装binlog或者其他涉及修改配置的场景下经常需要执行tiup reload指令。近期发现在生产和虚机测试环境下都出现了tiup reload指令执行失败的问题，报错很统一：
ssh: handshake failed: read tcp 【执行机IP：PORT】->【目标机器】:22: read: connection reset by peer
现象总结：
我前后测试了很多次，reload之前会执行scale-in/out等命令，这些命令没有失败的。
使用不同的集群进行测试报错时信息一致，测试环境下出现问题的概率较低，生产环境下较高。
测试时多使用su - tidb -c “tiup cluster reload …”，后期测试tidb账户下直接执行 tiup cluster reload …也会偶尔遇到上述报错。
reload日志
这里上传其中一个reload的debug log:【已删除】
检查过sshd_config相关的配置未发现有相关限制，防火墙未检查。
补充：可以排除防火墙的原因。

Artisan · 2020 年12 月 25 日 07:52

以上是我连续3次执行同一个指令的现象，除命令本身的执行时间外，间隔未超过5秒。
两次报错的debug log报错信息与之前上传的文件一致。

Artisan · 2020 年12 月 25 日 11:05

裂开了，AUG没搜到的在官网找到了：
TiUP FAQ | PingCAP Docs
需要同时在中控机和所有目标节点的sshd_config中设置MaxSessions 1000+ MaxStartups 1000并重启sshd服务。
之前看sshd_config的时候看到MaxSessions 10这行被注释下意识的忽略掉了…

这道题我不会 · 2020 年12 月 29 日 06:05

system · 2022 年10 月 31 日 19:14

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。