pd集群重搭后 经常 pd server out

旧的集群这样是不是 就没有pd信息

你完全按照这个重新恢复一下pd集群吧。最好是单独节点不要混合部署。

晚上我试试重装 pd试试

tidb的日志也发一下

clinic 日志不满足吗 需要重新给吗

抓的包贴上来。这样过滤下看不到具体的内容。

从你这个截图看,能看到访问了10.130.1.2:2379 10.130.1.3:2379 10.1.2.4:2379 10.1.2.5:2379 ,你有这么多PD吗?都正常吗?

你的截图中没有看到报错的那一条。如果上述4个ip不确定哪个ip故障,那得具体分析抓的包,比如说看看tidb和哪个pd建立tcp链接超时了。

结合你这个图,没有10.130.4:2379和10.130.5:2379这俩。你看看是什么原因?

那是后面怀疑了 pd 有问题 新增 4、5 把leader 放5 问题还是没解决

pdResult1.cap (850.6 KB)
这是5台服务器的抓包

你抓包就保持一个拓扑不要动,抓包过程中执行一次查询,包含pd server timeout的一次查询。这样抓包能看到具体访问哪个超时。


这个就是5个pd 时候的抓包结果

包含pd-server timeout的访问对吧? 从tidb侧抓的是吧?

嗯 pd1 文件是

看 log 是 tikv 连不上 pd 了,不是 tidb,查一下 tikv 的启动 command,tikv 是从 config里找到pd的,确认一下参数里是不是还有老的 PD?如果有的话, tiup edit-config 删除旧 pd,然后 reload 一下,重启一下 tikv试一试看。

感觉你抓的包里面没有timeout的。
在对应的tidb节点,执行抓包,然后向这个tidb节点发送sql

我这边看到 你这个region id peer id 有的都是 33202545

而你现在集群显示的alloc id 是69002

我建议你完全新建pd 集群, pd recover 时 使用 ```
–from-old-member

或者 alloc id = alloc id + 100000000

这个参数相关参数文件链接有木有

https://github.com/tikv/pd/pull/4014

暂时文档还没更新。你可以看看这个。

或者 直接设置 alloc id = alloc id + 100000000

reload 的时候出现这样,这种能如何处理