PD节点OOM

wakaka · 2022 年8 月 9 日 06:30

【 TiDB 使用环境】线上
【 TiDB 版本】5.0.6
【遇到的问题】大量的truncate命令夯住，pd节点oom
【复现路径】做过哪些操作出现的问题

ETL任务中的TRUNCATE任务执行慢，导致任务一直堆积。
【问题现象及影响】

当时hang住的ddl和下图一样，只是时间点不一样

【附件】

请提供各个组件的 version 信息，如 cdc/tikv，可通过执行 cdc version/tikv-server --version 获取。

xfworld · 2022 年8 月 9 日 07:35

先上集群信息，以及相关的配置信息

然后描述下是哪些节点出现了什么问题，最终导致了 PD 出现问题？

wakaka · 2022 年8 月 9 日 08:00

3PD节点 64c128g. 14TiDB节点 64c128g 17TiKV节点 64c64g 14TiFlash节点 64c64g

wakaka · 2022 年8 月 9 日 08:00

业务反馈ETL定时任务卡住，任务先做truncate，再做插入。 admin show ddl jobs看几百个truncate和update tiflash replica status状态

wakaka · 2022 年8 月 9 日 08:01

TiDB、TiKV、TiFlash节点CPU 内存监控看着没太大问题

wakaka · 2022 年8 月 9 日 08:02

这是tidb节点

wakaka · 2022 年8 月 9 日 08:02

这是pd节点

wakaka · 2022 年8 月 9 日 08:05

tiflash节点

wakaka · 2022 年8 月 9 日 08:08

tikv节点

xfworld · 2022 年8 月 9 日 08:18

truncate 是异步执行的，如果truncate没完成，就执行了插入，是否影响业务层面的逻辑要求？
看你的集群超大，那么 region 数量是否也是超大？分布是否均匀？
主 PD 存在高压的情况，查阅一下 empty region 是否也很多？(好像重启没多久)

image926×550 103 KB

wakaka · 2022 年8 月 9 日 08:23

1、业务层面也在改，现在是不知道为什么truncate会这么慢，虽然是异步，但是也是很快能执行完的。正常情况下的表都是秒级别。是因为truncate慢导致后续任务重试出问题了；
2、region 100W+ 目前看是均衡的；
3、里面的监控图都是8月8日15:00—23:59:59 pd节点在16:00—23:30之间重启了4次。
现在想知道truncate为啥会慢，pd为啥会内存飙升