tidb pd服务一直是down的状态

hacker_77powerful · 2024 年4 月 15 日 10:50

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题：问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件：截图/日志/监控】
[FATAL] [main.go:232] [“run server failed”] [error=“[PD:server:ErrCancelStartEtcd]etcd start canceled”] [stack=“main.start
n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/pd/cmd/pd-server/main.go:232\nmain.createServerWrapper\n\t/home/jenkins/agent/worksp
ace/build-common/go/src/github.com/pingcap/pd/cmd/pd-server/main.go:147\ngithub.com/spf13/cobra.(*Command).execute\n\t/go/pkg/mod/github.com/spf13/cobra@v1.
0.0/command.go:846\ngithub.com/spf13/cobra.(*Command).ExecuteC\n\t/go/pkg/mod/github.com/spf13/cobra@v1.0.0/command.go:950\ngithub.com/spf13/cobra.(*Command
).Execute\n\t/go/pkg/mod/github.com/spf13/cobra@v1.0.0/command.go:887\nmain.main\n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/pd/
cmd/pd-server/main.go:56\nruntime.main\n\t/usr/local/go/src/runtime/proc.go:250”]

[ERROR] [etcdutil.go:83] [“failed to get cluster from remote”] [error=“[PD:etcd:ErrEtcdGetCluster]failed to get raft cluste
r member(s) from the given URLs: failed to get raft cluster member(s) from the given URLs”]
[2024/04/11 17:39:13.633 +08:00] [WARN] [server.go:2098] [“failed to publish local member to cluster through raft”] [local-member-id=b43ecfd4b44129fc] [loca
l-member-attributes=“{Name:pd-1 ClientURLs:[http://192.168.209.5:22379]}”] [request-path=/0/members/b43ecfd4b44129fc/attributes] [publish-timeout=11s] [erro
r=“etcdserver: request timed out”]

TiDBer_jYQINSnf · 2024 年4 月 15 日 11:03

新集群吗？看起来pd的启动参数配置的不对？url部分。

TiDBer_jYQINSnf · 2024 年4 月 15 日 11:04

这个一般是2379，是你写错了吗？

hacker_77powerful · 2024 年4 月 15 日 11:12

没有写错，我们用了自定义的端口了

hacker_77powerful · 2024 年4 月 15 日 11:19

不是新集群，运行了一段时间了，因为文件系统满了，导致其中一个pd节点一直为down的状态

TiDBer_jYQINSnf · 2024 年4 月 15 日 12:09

连不上pd，你检查下网络。如果网络没有问题，在正常的pd里面执行：
member 看看有没有这个，如果有，member delete 删掉，然后这个pd清空数据目录重建也行。
pd的数据量很小，重建用不了多大会儿

hacker_77powerful · 2024 年4 月 15 日 12:37

可能是没有把pd的数据目录清空，我明天试试再说，谢谢。

dba远航 · 2024 年4 月 16 日 03:26

空间不足了，肯定会引起服务器异常，清空没用的文件试试