Spark SQL shuffle join在eBay的改进
王玉明
中文演讲 2023-08-18 14:30 GMT+8 #datastorageJoin操作是数据仓库中最重要、应用最广泛的操作之一。Apache Spark中的Join算子是最昂贵的操作符之一,尤其是Shuffle Join。
在本次演讲中,将介绍eBay最近添加的一系列Shuffle Join优化。 具体如下:
- Unwrap连接条件使用桶连接。
- 增强shuffle交换重用以减少表扫描。
- 通过Join下推部分聚合。
Speakers:
王玉明: eBay, 软件工程师, eBay SQL on Hadoop 团队软件开发工程师,Apache Spark PMC Member and Committer,2022 SIGMOD Systems Award 获得者。从Spark 1.5.0开始参与Apache Spark的开发,并成为最活跃的代码贡献者之一。专注于SQL查询性能优化。