重启pd节点时报错

【 TiDB 使用环境】生产环境
【 TiDB 版本】6.5.2
【复现路径】重启一个pd节点时报错
【遇到的问题:问题现象及影响】
使用tiup cluster restart 重启一个pd节点报错
报错如下:
Error: failed to stop: failed to stop pd: failed to stop: xxxx pd-3379.service, please check the instance’s log(/data1/tidb/deploy/pd-3379/log) for more detail.: executor.ssh.execute_failed: Failed to execute command over SSH for ‘tidb@xxxx:22’ {ssh_stderr: , ssh_stdout: , ssh_command: export LANG=C; PATH=$PATH:/bin:/sbin:/usr/bin:/usr/sbin /usr/bin/sudo -H bash -c “systemctl daemon-reload && systemctl stop pd-3379.service”}, cause: ssh: handshake failed: ssh: unable to authenticate, attempted methods [none publickey], no supported methods remain

ssh测试了,使用tidb用户ssh到pd节点是没问题的

日志文件看下呢

日志里并没有什么有用信息,也没报错啥的,后来将各个节点下/home/tidb/.ssh/authorized_keys文件都统一了,节点重启的操作就没问题了。

这里报错是指密钥错了,如果你本地可以 ssh 成功,可以试下加下参数--ssh system使用当前用户的 私钥,而不是用 tiup 维护的私钥。感觉可能是 TiUP 初始化成功后,你又通过其他途径覆盖了pd 节点的 tidb 用户的authorized_keys文件了

试了也是不行,看样子是每个节点的authorized_keys文件需要完全一致

互信,是只在初始化或者维护tidb集群的时候才有用吗?

ssh互信问题

tiup cluster check cluster_name --cluster 看一下这个里面有没有错误 如果有的话应该是 tidb 的 id_rsa 和 用户的 id_rsa不同导致的
这个是之前的问题
TiDB SSH互信配置案例

请查看实例的日志(/data1/tidb/deploy/pd-3379/log)了解更多细节。检查一下SSH互信有没有问题

详细一点

检查一下SSH互信有没有问题

具体日志具体分析

看看日志详细内容