另开新帖,探究pd集群挂掉的原因

【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.4.2
【遇到的问题:问题现象及影响】pd集群全部挂掉,重启无法解决,后通过pd-recover重置pd集群,集群恢复正常。但导致这个问题的原因需要进一步探究。
【资源配置】40核,128G

pd_61.log (1.2 MB)
pd_62.log (51.9 MB)
pd_63.log (1.3 MB)

image

会不会是这个问题在5.4.2中又被引入了

为啥要把CDC 和 PD 放一起做资源竞争呢? 明显不合理…

日志这里链接都掉了,确定网络是ok的?

资源不足不如缩一下规模,3 tikv,1 tidb,3 PD 就行了… (物尽其用)

我们没那么大的访问量,资源是足够的。

网络确定是OK的!
退一万步讲,即使网络某一时刻出了故障,网络恢复后集群也能启动吧!但是我连接到服务器,重启服务也失败。这才是需要关注的点,而不是去往资源不足,网络等外部因素上找原因。

确定磁盘也有空间?

PD 短时间内重启了 N 次,每次都 panic…

tidb panic 比较常见,PD不常见,【大脑都挂了… :see_no_evil: :see_no_evil: :see_no_evil:】 最好检查下环境吧(什么叫外部? 资源不足,你让软件怎么运行呢?)

何况环境对于你来说是可见的,我能看到的,只是你提供的一些信息,所有的均是猜想而已

信息不足只能通过经验来判断了… 希望你能明白

兄台,我贴图了,你看看哪里是资源不足。我们硬盘目前只用了21%空间肯定是够的。

具体情况是:

先是突然出现了这个问题,接着一段时间之后pd挂了。
我想不能无缘无故的pd dashboard就获取不到集群配置了吧?

你贴的监控图,中间全断了,明显不对劲了… 难道整个集群所有的实例全凉了? :rofl:

嗯,中断这里是pd挂掉进而导致整个集群挂掉。

猜测是资源竞争导致的,监控只能拿到持续的记录,短期的峰值是获取不到的

建议你将CDC 缩容掉,继续跑跑看

我觉得不能是资源。我们真没那么大的访问量,数据也不多,只1.6T。去掉cdc是不可能的,这辈子不可能 :cold_sweat:

之前的确因为cdc导致pd挂掉过:pd三个节点同时挂掉,大量报错:invalid timestamp
但是也不是因为资源,是因为cdc请求pd太频繁。

怎么说我们服务器,装这点数据肯定还是能承载的。

这个我明白

  1. PD 目前状态是否正常?
  2. PD 的 leader 是否能自由切换?
  3. 如果以上都ok,我建议你切换 dashboard 的服务节点,观察下是否还存在问题

你是说获取不到prometheus哪个吗?我无法复现这个现象了