收到,谢谢大佬。
我简单做了下测试,在重复度较低的情况下,落盘较少情况下效率提升一倍不止,如下:
tpch100,select c_phone,count() from customer group by c_phone order by count() desc limit 10;
6.5.0版本:
落盘700MB,整体耗时2m56s。
6.5.4版本:
落盘700MB,整体耗时1m12s。
在较大数据量落盘情况下,我估计会更可观,这对于hashAGG的落盘效率有相当大提升
2 个赞