Apache Arrow DataFusion: 极致性能的向量化执行框架
刘昆
中文演讲 2023-08-18 14:30 GMT+8 #olapApache Arrow DataFusion是一个快速的、可扩展的、向量化执行框架,使用Arrow作为其内存数据格式,使用Rust语言进行实现。 DataFusion提供了多种层次的扩展接口:用户在实现数据库或者查询系统的时候,可以轻松地将DataFusion集成进去,从而利用其极致的性能,避免重复实现查询引擎的问题。
本次介绍主要包含:
- DataFusion是什么以及其发展历史
- DataFusion的架构
- DataFusion提供了哪些扩展能力(udf,logical plan,execution plan/node等)
- DataFusion使用的场景是什么
- DataFusion当前有哪些使用案例
Speakers:
刘昆: eBay, 大数据工程师, 毕业于清华大学软件学院;
目前就职于eBay大数据开发团队,大数据工程师;
Apache Arrow PMC,Apache IoTDB PMC,主要从事数据库、存储引擎、查询引擎等领域的工作。