tidb pd服务一直是down的状态

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】
[FATAL] [main.go:232] [“run server failed”] [error=“[PD:server:ErrCancelStartEtcd]etcd start canceled”] [stack=“main.start
n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/pd/cmd/pd-server/main.go:232\nmain.createServerWrapper\n\t/home/jenkins/agent/worksp
ace/build-common/go/src/github.com/pingcap/pd/cmd/pd-server/main.go:147\ngithub.com/spf13/cobra.(*Command).execute\n\t/go/pkg/mod/github.com/spf13/cobra@v1.
0.0/command.go:846\ngithub.com/spf13/cobra.(*Command).ExecuteC\n\t/go/pkg/mod/github.com/spf13/cobra@v1.0.0/command.go:950\ngithub.com/spf13/cobra.(*Command
).Execute\n\t/go/pkg/mod/github.com/spf13/cobra@v1.0.0/command.go:887\nmain.main\n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/pd/
cmd/pd-server/main.go:56\nruntime.main\n\t/usr/local/go/src/runtime/proc.go:250”]

[ERROR] [etcdutil.go:83] [“failed to get cluster from remote”] [error=“[PD:etcd:ErrEtcdGetCluster]failed to get raft cluste
r member(s) from the given URLs: failed to get raft cluster member(s) from the given URLs”]
[2024/04/11 17:39:13.633 +08:00] [WARN] [server.go:2098] [“failed to publish local member to cluster through raft”] [local-member-id=b43ecfd4b44129fc] [loca
l-member-attributes=“{Name:pd-1 ClientURLs:[http://192.168.209.5:22379]}”] [request-path=/0/members/b43ecfd4b44129fc/attributes] [publish-timeout=11s] [erro
r=“etcdserver: request timed out”]

新集群吗?看起来pd的启动参数配置的不对?url部分。

这个一般是2379,是你写错了吗?

没有写错,我们用了自定义的端口了

不是新集群,运行了一段时间了,因为文件系统满了,导致其中一个pd节点一直为down的状态

连不上pd,你检查下网络。如果网络没有问题,在正常的pd里面执行:
member 看看有没有这个,如果有,member delete 删掉,然后这个pd清空数据目录重建也行。
pd的数据量很小,重建用不了多大会儿

可能是没有把pd的数据目录清空,我明天试试再说,谢谢。

空间不足了,肯定会引起服务器异常,清空没用的文件试试