Uber Data Infra的大数据格式

Xinli Shang, Pavi Subenderan, Jianchun Xu

英文演讲 2021-08-08 15:30 GMT+8  (ROOM : A) #bigdata

大数据格式在数据分析中对数据存储效率、查询性能和安全性起到了重要作用。在这次演讲中,我们将介绍我们在大数据文件格式,Apache Parquet,在Uber的工作,用于减少存储大小〜20%,以节省数百万美元,并加密列,提供细粒度的访问控制。我们将展示我们为开源Parquet所做的工作,包括ZSTD压缩、高吞吐量列修剪器、列大小估算器、列加密管理等。在查询性能方面,我们将展示我们与列索引有关的工作,这是Parquet 1.11.0的一个新功能。

不仅是大数据文件格式,内存格式,即Apache Arrow,也是我们研究的领域之一。使用Apache Arrow作为缓存层将极大地提高性能。我们将在Uber展示我们对大数据格式的愿景。

讲师:

尚新力: 尚新力是Uber Data Infra团队的技术负责人,Apache Parquet PMC主席。他热衷于大数据文件格式的效率、性能和安全性,调整大规模服务的性能、吞吐量和可靠性。他是Apache Parquet的一个积极贡献者。他也有多年开发大规模分布式系统的经验,如S3索引,和操作系统Windows。

Pavi Subenderan: Pavi是Uber数据信息团队的一名软件工程师。他的重点是数据安全、隐私和开源大数据技术。他已经在Parquet列加密方面工作了1年半,最近又在数据屏蔽方面工作。 徐建春: 徐建春是Uber数据基础设施团队的高级软件工程师。 自一年前加入数据团队以来,他主要从事大数据基础设施和Parquet方面的工作。 他在服务部署平台、开发工具和 Web/JavaScript引擎方面也拥有丰富的经验。