pd集群重搭后 经常 pd server out

【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.3.3
【复现路径】pd 集群重新搭建过
【遇到的问题:问题现象及影响】
有些表出现查询pd server timeout
有些时候 select * from xxx where id=1是可以
但是select * from xxx limit 1 是不行

大佬们帮忙看下
【资源配置】

【附件:截图/日志/监控】

补充

先看下black eporter/node exporter监控中Pd leader节点 有没有网络延迟 、CPU 磁盘延迟高的情况

你看一下 tikv tidb的cpu是否高 我之前遇到过 excute limit的情况 是慢sql卡死业务了。tidb dashboard一片红。 后来修复完慢sql pd就能连上了

是grafana上看吗

image

服务器是正常,最奇怪是部分表才会出现

node exporter




black eporter

查找一下 是否只有一个单独的tikv报错。

我看看

tikv 没有报错

那就检查一个pd 的状态和日志
还有 tidb server 到pd之间的网络联通性,是否开启防火墙

请问监控截图看了 有什么问题没


这个表的数据库多大?

接近2g

确认一下是否只有一个tidb节点报错
如果是 麻烦发一下对应的 节点监控。

所有tidb节点都会报错。
我发现主键的查询是正常 非主键就不行查询

pd leader的 日志发一下

trace select xxx看看报错的SQL有结果不