旧的集群这样是不是 就没有pd信息
你完全按照这个重新恢复一下pd集群吧。最好是单独节点不要混合部署。
晚上我试试重装 pd试试
tidb的日志也发一下
clinic 日志不满足吗 需要重新给吗
抓的包贴上来。这样过滤下看不到具体的内容。
从你这个截图看,能看到访问了10.130.1.2:2379 10.130.1.3:2379 10.1.2.4:2379 10.1.2.5:2379 ,你有这么多PD吗?都正常吗?
你的截图中没有看到报错的那一条。如果上述4个ip不确定哪个ip故障,那得具体分析抓的包,比如说看看tidb和哪个pd建立tcp链接超时了。
结合你这个图,没有10.130.4:2379和10.130.5:2379这俩。你看看是什么原因?
那是后面怀疑了 pd 有问题 新增 4、5 把leader 放5 问题还是没解决
你抓包就保持一个拓扑不要动,抓包过程中执行一次查询,包含pd server timeout的一次查询。这样抓包能看到具体访问哪个超时。
包含pd-server timeout的访问对吧? 从tidb侧抓的是吧?
嗯 pd1 文件是
看 log 是 tikv 连不上 pd 了,不是 tidb,查一下 tikv 的启动 command,tikv 是从 config里找到pd的,确认一下参数里是不是还有老的 PD?如果有的话, tiup edit-config 删除旧 pd,然后 reload 一下,重启一下 tikv试一试看。
感觉你抓的包里面没有timeout的。
在对应的tidb节点,执行抓包,然后向这个tidb节点发送sql
我这边看到 你这个region id peer id 有的都是 33202545
而你现在集群显示的alloc id 是69002
我建议你完全新建pd 集群, pd recover 时 使用 ```
–from-old-member
或者 alloc id = alloc id + 100000000
这个参数相关参数文件链接有木有