TiDB 的问答社区

pd集群重搭后经常 pd server out

🪐 TiDB 技术问题部署&运维管理

kuuhaku (kuuhaku) 2022 年11 月 17 日 01:38 144

旧的集群这样是不是就没有pd信息

songxuecheng (小白) 2022 年11 月 17 日 01:39 145

你完全按照这个重新恢复一下pd集群吧。最好是单独节点不要混合部署。

kuuhaku (kuuhaku) 2022 年11 月 17 日 02:24 146

晚上我试试重装 pd试试

songxuecheng (小白) 2022 年11 月 17 日 02:38 147

tidb的日志也发一下

kuuhaku (kuuhaku) 2022 年11 月 17 日 02:44 148

clinic 日志不满足吗需要重新给吗

TiDBer_jYQINSnf 2022 年11 月 17 日 06:12 149

抓的包贴上来。这样过滤下看不到具体的内容。

TiDBer_jYQINSnf 2022 年11 月 17 日 06:24 150

从你这个截图看，能看到访问了10.130.1.2:2379 10.130.1.3:2379 10.1.2.4:2379 10.1.2.5:2379 ，你有这么多PD吗？都正常吗？

你的截图中没有看到报错的那一条。如果上述4个ip不确定哪个ip故障，那得具体分析抓的包，比如说看看tidb和哪个pd建立tcp链接超时了。

TiDBer_jYQINSnf 2022 年11 月 17 日 06:28 151

结合你这个图，没有10.130.4：2379和10.130.5：2379这俩。你看看是什么原因？

kuuhaku (kuuhaku) 2022 年11 月 17 日 06:29 152

那是后面怀疑了 pd 有问题新增 4、5 把leader 放5 问题还是没解决

kuuhaku (kuuhaku) 2022 年11 月 17 日 06:30 153

pdResult1.cap (850.6 KB)
这是5台服务器的抓包

TiDBer_jYQINSnf 2022 年11 月 17 日 06:31 154

你抓包就保持一个拓扑不要动，抓包过程中执行一次查询，包含pd server timeout的一次查询。这样抓包能看到具体访问哪个超时。

kuuhaku (kuuhaku) 2022 年11 月 17 日 06:32 155

这个就是5个pd 时候的抓包结果

TiDBer_jYQINSnf 2022 年11 月 17 日 06:32 156

包含pd-server timeout的访问对吧？从tidb侧抓的是吧？

kuuhaku (kuuhaku) 2022 年11 月 17 日 06:36 157

嗯 pd1 文件是

mayjiang0203 2022 年11 月 17 日 07:16 158

看 log 是 tikv 连不上 pd 了，不是 tidb，查一下 tikv 的启动 command，tikv 是从 config里找到pd的，确认一下参数里是不是还有老的 PD？如果有的话， tiup edit-config 删除旧 pd，然后 reload 一下，重启一下 tikv试一试看。

TiDBer_jYQINSnf 2022 年11 月 17 日 07:27 159

感觉你抓的包里面没有timeout的。
在对应的tidb节点，执行抓包，然后向这个tidb节点发送sql

songxuecheng (小白) 2022 年11 月 17 日 07:54 160

我这边看到你这个region id peer id 有的都是 33202545

而你现在集群显示的alloc id 是69002

我建议你完全新建pd 集群, pd recover 时使用 ```
–from-old-member

或者 alloc id = alloc id + 100000000

kuuhaku (kuuhaku) 2022 年11 月 17 日 08:12 161

这个参数相关参数文件链接有木有

songxuecheng (小白) 2022 年11 月 17 日 08:22 162

https://github.com/tikv/pd/pull/4014

暂时文档还没更新。你可以看看这个。

或者直接设置 alloc id = alloc id + 100000000

kuuhaku (kuuhaku) 2022 年11 月 17 日 13:41 163

reload 的时候出现这样，这种能如何处理

©2023 TiDB Community. 京ICP备20022552号-5 京公网安备11010802043344号