Apache Druid的存储和查询引擎内幕

Gian Merlino

英文演讲 2021-08-06 15:30 GMT+8  (ROOM : B) #bigdata

Apache Druid是一个开源的列式数据库,以大规模、高性能而闻名;其最大的部署包括成千上万的服务器。但无论规模大小,高性能都要从良好的基础开始。本讲座将通过探索单个数据服务器的内部工作原理来深入了解这些基本原理。我们将介绍Apache Druid如何存储数据,使用何种压缩方式,如何索引数据,存储引擎如何与查询处理引擎相连,以及系统如何处理资源管理和多线程。所有这些部分加在一起,使Apache Druid能够在一台数据服务器上每秒处理数十亿条记录。

讲师:

Gian Merlino: Gian是Imply的联合创始人和CTO。Gian也是Druid的主要提交者之一。在此之前,Gian在Metamarkets领导数据摄取团队,并在雅虎担任高级工程职位。他拥有加州理工学院的计算机科学学士学位。