Apache Ozone:用于分析工作负载的高性能对象库

Rakesh Radhakrishnan, Mukul Kumar Singh

英文演讲 2021-08-07 14:50 GMT+8  (ROOM : A) #bigdata

Apache Ozone是一个强大的、分布式的键值对象存储,用于Hadoop,具有分层结构和强大的一致性。它提供了对象存储的语义(像Amazon S3),可以处理数十亿的对象。Apache Ozone对象存储最近实现了快速的原子重命名和删除操作,复杂度为O(1)。这种巨大的优化降低了工作延迟,等于降低了分析工作负载的总成本(TCO)。我们知道,大多数大数据分析工具,如Apache Hive、Apache Spark等,经常将输出写入临时位置,然后在作业结束时重命名该位置,使其成为公开可见的。在分析对象存储(如Amazon S3)时,重命名不是一个原生的对象存储操作,它是用一个昂贵的复制和删除操作来实现。重命名操作的时间往往比分析过程本身还要长。这些工作提交者需要原子重命名,以提高性能,以及一致的列表操作。本讲座将深入探讨Apache Ozone的架构,描述原子重命名和删除的实现,这大大提升了分析工作的性能。我们将通过性能基准测试结果,显示在各种分析工作负载中获得一致的性能提升。最后,我们还将谈论未来的路线图,以利用这种新的设计,通过避免全局锁来实现命名空间操作的高效锁管理。

讲师:

Rakesh Radhakrishnan: Rakesh Radhakrishnan是Apache Hadoop、Apache ZooKeeper、Apache BookKeeper项目的Committer和PMC,主要关注开源大数据技术。Rakesh目前在Cloudera工作,并在Apache Ozone项目中积极贡献。 他在大型分布式软件平台设计和开发方面有超过14年的经验。在加入Cloudera之前,他曾在英特尔公司担任大数据软件工程师。

Mukul Kumar Singh: Mukul目前在Cloudera工作,领导存储团队从事Apache Ozone和Apache HDFS的工作。他在存储系统和文件系统方面已经工作了12年,扮演过各种角色,包括开源贡献者、Apache PMC成员、研究员和软件开发人员。他还曾在Nimble Storage和NetApp工作,并分别负责WAFL和CASL文件系统。他毕业于卡内基梅隆大学,他的毕业论文是关于盛装磁记录磁盘的文件系统。