Hadoop矢量IO:你的数据变快了!

Mukund Thakur

英文演讲 2022-07-30 16:10 GMT+8  (ROOM : A) #bigdata

自2006年以来,大数据的世界已经从tb级转移到数百pb级,从本地集群转移到远程云存储,然而最初的基于Apache Hadoop posix的文件api几乎没有改变。

这些api工作得很好,这很好,但是通过提供更适合远程对象存储的新操作(针对ORC和Spark等柱状数据库),我们可以在远程对象存储方面做得更好。只有少数库需要迁移到这些api来显著加快所有大数据应用程序的速度。

本次演讲将介绍Hadoop 3.4中新的Hadoop文件系统API,称为“矢量读取”。经典FSDataInputStream的扩展,它由所有文件系统客户端自动提供。 S3A连接器是第一个提供自定义实现的对象存储,可以并行读取不同的数据块。在修改ORC库的Apache Hive基准测试中,我们发现与通过Posix api使用经典的s3a连接器相比,速度提高了2倍。

我们将介绍API规范、S3A实现和基准,并展示如何在您自己的应用程序中使用它。我们还将介绍我们正在进行的工作,在其他对象存储中提供类似的加速,以及在其他应用程序中使用API。

Speakers:


Mukund Thakur: Apache APISIX, Cloudera, 我是Apache Hadoop项目的活跃提交者,目前在Cloudera工作,专注于云存储连接器(aws、azure和gcs)和Ranger Authorization。 我有8年的大型分布式系统设计和开发经验。除了软件开发,我还喜欢做瑜伽和在喜马拉雅山徒步旅行。