重启集群中的一个节点-重启节点报错,偶尔起不来,偶尔能起来

【 TiDB 使用环境】生产环境
【 TiDB 版本】7.1.1
【复现路径】重启集群中任何一个节点
【遇到的问题:问题现象及影响】
Error: init config failed: 192.168.4.14:2379: transfer from /root/.tiup/storage/cluster/clusters/tidb-test/config-cache/pd-192.168.4.14-2379.service to /tmp/pd_5c639c96-93a9-4757-89a3-1195781e5ca7.service failed: failed to scp /root/.tiup/storage/cluster/clusters/tidb-test/config-cache/pd-192.168.4.14-2379.service to tidb@192.168.4.14:/tmp/pd_5c639c96-93a9-4757-89a3-1195781e5ca7.service: Process exited with status 1

感觉象是SCP不稳定出现的问题,手动SCP一下试试

1708498185037

每次都是报 192.168.4.14 这个节点吗? 是不是互信有什么问题

我就是在14这台机器进行操作的,他scp自己都出问题,

14这台机器还能连上吗?看起来那么多error

做过互信吗?

能的就是在14这个机器进行操作的

好像没做互信部署集群的时候是通过统一用户名密码部署的

tiup就在14上

集群是自己维护一套公钥来互信的,位置在.tiup/storage/cluster/clusters/<cluster_name>/ssh 下面,不过如果是互信有问题的话应该是一直起不来才对,看你的描述是偶尔还能起来,感觉不像是互信的问题。

显示是失败,但是有的时候可以把节点起来,有的时候就起不来

image

看看id_rsa.pub 里面的公钥是否存在于 ~/.ssh/authorized_keys 里面?
另外你是做了什么操作才导致现在这个状态的?

可以尝试重新配一下互信试试看 可以看看下面两个链接

https://docs.pingcap.com/zh/tidb/stable/check-before-deployment#手动配置-ssh-互信及-sudo-免密码

应该是不在

这个应该还是互信的问题导致的吧?你配置一下所有机器的互信再试试呗

我看之前有tidb用户,我不知密码,可以直接把密码改掉吗

tidb用户和root用户都可以先改密码,然后配置互信,具体看你用哪个用户配置的集群环境 一般来说以root用户配置就可以 鉴于你目前的情况 建议把root和tidb两个用户都做一遍互信

互信配置完,不生效,ssh还需要密码,难受