这个能否结合hashagg的落盘一起优化呢,hashagg落盘后也是慢并且空间放大很明显,参考这个帖子:对于hashAgg算子非并行模式下还是发生OOM , 其中一个问题是:3、对于问题3 ,多次落盘操作不但放大了问题1,而且还导致磁盘空间急剧膨胀,能否设计成多个“段”,及时回收无用空间呢? 。
请大佬结合多个算子落盘行为通盘考虑,尽量做到复用对象(避免过多GC)的情况下,一次读写IO尽可能的高效(一个或多个chunk,我想也要同时考虑大字段情况,避免一次IO过大占用较多内存),数据落盘后尽可能紧凑(避免浪费空间),来统一设计一个落盘机制。非常感谢!