Apache Arrow DataFusion: 极致性能的向量化执行框架

刘昆

中文演讲 2023-08-18 14:30 GMT+8  #olap

Apache Arrow DataFusion是一个快速的、可扩展的、向量化执行框架,使用Arrow作为其内存数据格式,使用Rust语言进行实现。 DataFusion提供了多种层次的扩展接口:用户在实现数据库或者查询系统的时候,可以轻松地将DataFusion集成进去,从而利用其极致的性能,避免重复实现查询引擎的问题。

本次介绍主要包含:

  1. DataFusion是什么以及其发展历史
  2. DataFusion的架构
  3. DataFusion提供了哪些扩展能力(udf,logical plan,execution plan/node等)
  4. DataFusion使用的场景是什么
  5. DataFusion当前有哪些使用案例

Speakers:


刘昆: eBay, 大数据工程师, 毕业于清华大学软件学院; 目前就职于eBay大数据开发团队,大数据工程师; Apache Arrow PMC,Apache IoTDB PMC,主要从事数据库、存储引擎、查询引擎等领域的工作。