Uber Data Infra的大数据格式

Xinli Shang, Pavi Subenderan, Jianchun Xu

英文演讲 2021-08-08 15:30 GMT+8 (ROOM : A) #bigdata

大数据格式在数据分析中对数据存储效率、查询性能和安全性起到了重要作用。在这次演讲中，我们将介绍我们在大数据文件格式，Apache Parquet，在Uber的工作，用于减少存储大小〜20％，以节省数百万美元，并加密列，提供细粒度的访问控制。我们将展示我们为开源Parquet所做的工作，包括ZSTD压缩、高吞吐量列修剪器、列大小估算器、列加密管理等。在查询性能方面，我们将展示我们与列索引有关的工作，这是Parquet 1.11.0的一个新功能。

不仅是大数据文件格式，内存格式，即Apache Arrow，也是我们研究的领域之一。使用Apache Arrow作为缓存层将极大地提高性能。我们将在Uber展示我们对大数据格式的愿景。

讲师:

尚新力: 尚新力是Uber Data Infra团队的技术负责人，Apache Parquet PMC主席。他热衷于大数据文件格式的效率、性能和安全性，调整大规模服务的性能、吞吐量和可靠性。他是Apache Parquet的一个积极贡献者。他也有多年开发大规模分布式系统的经验，如S3索引，和操作系统Windows。

Pavi Subenderan: Pavi是Uber数据信息团队的一名软件工程师。他的重点是数据安全、隐私和开源大数据技术。他已经在Parquet列加密方面工作了1年半，最近又在数据屏蔽方面工作。徐建春: 徐建春是Uber数据基础设施团队的高级软件工程师。自一年前加入数据团队以来，他主要从事大数据基础设施和Parquet方面的工作。他在服务部署平台、开发工具和 Web/JavaScript引擎方面也拥有丰富的经验。