pd集群重搭后 经常 pd server out

kvlog03.tar.gz (2.9 MB)
kvlog01.tar.gz (5.8 MB)
kvlog02.tar.gz (6.0 MB)

不行,那个诊断日志 能分析出什么问题吗

pd其他节点的日志也发一下。非leader节点

1、2、3 重新处理,所以日志没有之前的
pd.tar.gz (1.9 MB)

https://docs.pingcap.com/zh/tidb/stable/clinic-introduction

一次性收集一些这个信息,然后把这里帮助你回帖的小伙伴都加一下查看权限。

请问看了之后 ,有什么思路处理没有

为啥好像没有什么有效信息~

我按照文档执行一段时间的日志,就这样

围观100多个回答的问题 :grin:

这个force删除的时候,pd是leader吗?
另外,报错的tidb可不可以抓包看下?用wireshark或者TCP dump,抓出来pd server timeout 为止。看下到底发给了哪个ip的pd。然后再判断是不是这个pd不存在了,还是说这个pd要往leader转发的时候,没找对位置?

删除的时候 pd 不是leader

监控4000端口吗

抓2379端口,tidb访问pd是访问的2379。
如果量不大的话,可以不过滤,也顺便看看那一时刻的网络情况。
然后对应的,把目标地址的pd的log拿上来看下。

那我抓包是抓 pd leader 是吧

curl http://127.0.0.1:2379/debug/pprof/goroutine?debug=2
抓一下 pd leader 发一下。

grafana → blackbox_exporter → ping latency
这个监控在发一下今天的

这是早上的日志 我先上传,晚点我再拉下午的日志,这里面应该可以看到pd的日志吧

现在这个情况 我建议你如果资源充足。把pd单独部署。不要混合。

pd 目前单独部一个接口是否可以,现在机器空余不多


监控里一直显示有个pd是down的, pd-ctl member 看下