Paper Reading 预告 | RESIN: 消除SQL查询中的冗余I/O

【背景】
Paper Reading 是 TiDB 社区的小伙伴分享研读数据库、分布式等相关领域的论文心得的活动。
通过直播,向大家探讨分享论文的内容和启发点、创新点。
2021 年 7 月 13 日 19 时,TiDB Contributor、上海交通大学 IPADS 实验室博士生 Mingcong Han 将于 Zoom 分享研读论文《Generalized Sub-Query Fusion for Eliminating Redundant I/O from Big-Data Queries》,欢迎大家报名参加。

【报名】
微信扫码 → 点击报名 → 报名成功,加入交流群
image

【论文内容】
在分布式 OLAP 的场景中,磁盘与网络 I/O 是查询性能的主要瓶颈,而传统的 SQL 查询优化器为一些典型的查询(TPCDS 中 25% 的查询)产生的查询计划中,往往会存在冗余的 I/O 从而导致较差的性能。造成这一现象的主要原因是传统的查询优化器产生的查询计划只能使用标准的关系算子,而这些算子的组合无法消除这些冗余的 I/O 。
本论文提出了一个查询优化器的扩展——RESIN,它包含了两类新的算子 ResinMap 以及 ResinReduce,并且提出了 Generalized Sub-Query Fusion 技术,将含有相同输入的算子融合到一起,消除冗余的 I/O。作者将 RESIN 集成到了 SparkSQL 中,在 TPCDS 的测试里,有 40% 的查询得到了 1.1-6x 的性能提升。

【资料下载入口】
Generalized Sub-Query Fusion for Eliminating Redundant I:O from Big-Data Queries.pdf (2.8 MB) RESIN.pptx (2.5 MB)

1 个赞

前排围观