PD Server 的leader节点卡死/挂起导致集群不可用

V3.0.2,部署了三个PD server节点 具体怎么卡死的,在微信群和技术支持有过交流,情况可能比较新,后续会单独开贴讨论细节。 这里只是说通过这次卡死,我们发现存在pad server的lead节点已经不可用,无法响应查询请求,但监控上看不出明显异常,lead也不做切换,这个问题需要改进一下,要不一般人也不好维护。

收到, 我们看一下

@yanbo8502 感谢反馈,有几个疑问:

  1. 监控看不出异常是说指 PD 的面板看不出异常?期间 TiDB 的面板有异常吗?
  2. PD 不做切换的问题能否提供一下 PD 的日志和当时的 goroutine 堆栈信息?