启动时UpdateTopology失败,rpc error(网络是通的用telnet试过).pd-ctl获取cluster信息503

日志如下:
2021-07-26T10:39:51.207+0800 DEBUG TaskFinish {“task”: “StartCluster”}
2021-07-26T10:39:51.207+0800 INFO + [ Serial ] - UpdateTopology: cluster=tidb-poc
2021-07-26T10:39:51.207+0800 DEBUG TaskBegin {“task”: “UpdateTopology: cluster=tidb-poc”}
2021-07-26T10:40:01.209+0800 DEBUG TaskFinish {“task”: “UpdateTopology: cluster=tidb-poc”, “error”: “context deadline exceeded”}
2021-07-26T10:40:01.209+0800 INFO Execute command finished {“code”: 1, “error”: “context deadline exceeded”, “errorVerbose”: “context deadline exceeded\ngithub.com/pingcap/errors.AddStack\n\tgithub.com/pingcap/errors@v0.11.4/errors.go:174\ngithub.com/pingcap/errors.Trace\n\tgithub.com/pingcap/errors@v0.11.4/juju_adaptor.go:15\ngithub.com/pingcap/tiup/pkg/cluster/manager.(*Manager).StartCluster\n\tgithub.com/pingcap/tiup/pkg/cluster/manager/basic.go:114\ngithub.com/pingcap/tiup/components/cluster/command.newStartCmd.func1\n\tgithub.com/pingcap/tiup/components/cluster/command/start.go:39\ngithub.com/spf13/cobra.(*Command).execute\n\tgithub.com/spf13/cobra@v1.1.3/command.go:852\ngithub.com/spf13/cobra.(*Command).ExecuteC\n\tgithub.com/spf13/cobra@v1.1.3/command.go:960\ngithub.com/spf13/cobra.(*Command).Execute\n\tgithub.com/spf13/cobra@v1.1.3/command.go:897\ngithub.com/pingcap/tiup/components/cluster/command.Execute\n\tgithub.com/pingcap/tiup/components/cluster/command/root.go:264\nmain.main\n\tgithub.com/pingcap/tiup/components/cluster/main.go:23\nruntime.main\n\truntime/proc.go:225\nruntime.goexit\n\truntime/asm_amd64.s:1371”}

tiflash 也没起来

3赞

那你是不是贴错图了?

你的版本?目前状态是什么?问题也没描述清楚,是集群没启动,还是什么?

2赞

集群部分组件,启动成功了。版本 v5.1.0,deploy的时候报的这个错误,日志就是这样。我也不知道为什么会这样

2赞

在执行UpdateTopology时报错

1赞

PD 挂了啊,完全连不上呢

参考这个操作方式:

也可以参考这个:

2赞

我看pd状态是活着的啊

1赞

image

1赞

你贴图上的日志写的是挂的… rpc error…

1赞

rpc挂了啊?

1赞

关键是 PD 中自带 ETCD 的实现,做为ETCD 的实例要提供服务的,在日志中描述的是调度失败(你的网络是通的么? 最好参考下我发的链接检查下)

1赞

网络是通的啊,我在deploy前check都是正常的呢

1赞

那和你的日志对不上啊,日志上描述的状态是调度失败…

1赞

是通的啊

1赞

你用这个工具试试

https://docs.pingcap.com/zh/tidb/v4.0/pd-control

打印相关的状态和一些cluster, store,regions信息等等看看

1赞

1赞

您好,recover也没用啊。

1赞

大佬 我重新改了拓扑,销毁重建集群依然没用:joy:

1赞

环境只能你自己确认啊,如果你是按照步骤部署的,然后每个步骤都是ok的,最后查阅集群状态是否正常就好了啊!

日志描述是命令无法调度,肯定是网络不通啊,我建议你自己在排查下…

1赞

你也看到了 我发的telnet的截图,网络都是通的啊。我试了好多遍的呢。不过还是谢谢你

1赞

不是网络不通的问题啊,这个图我访问的是本机。503显示的是downtime和capacity的问题,这怎么解决

1赞