pd节点启动失败,但是服务器显示启动成功,看集群状态是并未启动

2024-01-31 11:21:35 (UTC+08:00)PD 192.168.4.204:2379[main.go:235] [“run server failed”] [error=“[PD:etcd:ErrEtcdMemberList]context deadline exceeded: context deadline exceeded”] [stack=“main.start\n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/pd/cmd/pd-server/main.go:235\nmain.createServerWrapper\n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/pd/cmd/pd-server/main.go:147\ngithub.com/spf13/cobra.(*Command).execute\n\t/go/pkg/mod/github.com/spf13/cobra@v1.0.0/command.go:846\ngithub.com/spf13/cobra.(*Command).ExecuteC\n\t/go/pkg/mod/github.com/spf13/cobra@v1.0.0/command.go:950\ngithub.com/spf13/cobra.(*Command).Execute\n\t/go/pkg/mod/github.com/spf13/cobra@v1.0.0/command.go:887\nmain.main\n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/pd/cmd/pd-server/main.go:56\nruntime.main\n\t/usr/local/go/src/runtime/proc.go:250”]

看下端口能通吗

你这是去手工启动了?

是的,手动启动过

端口都是通的

手动把PD节点停掉,然后通过tiup来启动呢?

从报错看scp,检查一下是不是ssh互信问题

1 个赞

通过故障节点启动pd-ctl连其他节点的pd ,执行member,看看能不能list出来。验证下网络问题。

启动不报错,显示启动成功,但是检查集群状态还是没起来

感觉是信息不同步了

关键不敢整个集群大重启,一旦重启时间长点出点问题就麻烦了

如果是多个pd节点,登录pd-ctl member看看,healthy看看,如果有2个健康的副本,就删掉这个坏的重建试试。pd的重建很快。

这个报错是因为pd节点没有正常起来,所以去访问pd获取member的超时报错了,这个不是导致pd服务无法起来的原因。再去看看pd 节点上的日志,确认下是否还有其他报错信息。

不过,从这个图的报错来看是无法正常ssh访问对应的pd节点机器,连最基本的scp传输配置文件都出错了,说明无法访问机器。

请优先排查机器是否宕机、是否有防火墙策略不当或其他影响ssh正常访问的问题。

1 个赞

telnet 端口都是正常的,机器也没啥问题,14这台机器就是操作的这台机器,没开什么策略,防火墙都关了

我尝试过缩容再扩回来,但是扩回来也启动不了

日志不全啊,最好要从启动开始那刻开始截

看报错是ssh访问相关的问题。

建议手动试试执行报错信息中的scp 命令,先解决它