另开新帖，探究pd集群挂掉的原因

wfxxh · 2022 年12 月 19 日 08:16

【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.4.2
【遇到的问题：问题现象及影响】pd集群全部挂掉，重启无法解决，后通过pd-recover重置pd集群，集群恢复正常。但导致这个问题的原因需要进一步探究。
【资源配置】40核，128G

pd_61.log (1.2 MB)
pd_62.log (51.9 MB)
pd_63.log (1.3 MB)

wfxxh · 2022 年12 月 19 日 08:18

会不会是这个问题在5.4.2中又被引入了

xfworld · 2022 年12 月 19 日 09:28

为啥要把CDC 和 PD 放一起做资源竞争呢？明显不合理…

日志这里链接都掉了，确定网络是ok的？

资源不足不如缩一下规模，3 tikv，1 tidb，3 PD 就行了… （物尽其用）

wfxxh · 2022 年12 月 19 日 09:50

我们没那么大的访问量，资源是足够的。

网络确定是OK的！
退一万步讲，即使网络某一时刻出了故障，网络恢复后集群也能启动吧！但是我连接到服务器，重启服务也失败。这才是需要关注的点，而不是去往资源不足，网络等外部因素上找原因。

xfworld · 2022 年12 月 19 日 10:06

确定磁盘也有空间？

PD 短时间内重启了 N 次，每次都 panic…

tidb panic 比较常见，PD不常见，【大脑都挂了… 】最好检查下环境吧（什么叫外部？资源不足，你让软件怎么运行呢？）

何况环境对于你来说是可见的，我能看到的，只是你提供的一些信息，所有的均是猜想而已

信息不足只能通过经验来判断了… 希望你能明白

wfxxh · 2022 年12 月 19 日 10:07

兄台，我贴图了，你看看哪里是资源不足。我们硬盘目前只用了21%空间肯定是够的。

具体情况是:

先是突然出现了这个问题，接着一段时间之后pd挂了。
我想不能无缘无故的pd dashboard就获取不到集群配置了吧？

xfworld · 2022 年12 月 19 日 10:10

你贴的监控图，中间全断了，明显不对劲了… 难道整个集群所有的实例全凉了？

wfxxh · 2022 年12 月 19 日 10:11

嗯，中断这里是pd挂掉进而导致整个集群挂掉。

xfworld · 2022 年12 月 19 日 10:12

猜测是资源竞争导致的，监控只能拿到持续的记录，短期的峰值是获取不到的

建议你将CDC 缩容掉，继续跑跑看

wfxxh · 2022 年12 月 19 日 10:15

我觉得不能是资源。我们真没那么大的访问量，数据也不多，只1.6T。去掉cdc是不可能的，这辈子不可能

之前的确因为cdc导致pd挂掉过：pd三个节点同时挂掉，大量报错：invalid timestamp
但是也不是因为资源，是因为cdc请求pd太频繁。

怎么说我们服务器，装这点数据肯定还是能承载的。

xfworld · 2022 年12 月 19 日 10:17

这个我明白

wfxxh · 2022 年12 月 19 日 10:19

你是说获取不到prometheus哪个吗？我无法复现这个现象了