基于Apache Arrow的Python数据处理的数据框架

Supun Kamburugamuve

英文演讲 2021-08-08 16:50 GMT+8  (ROOM : A) #bigdata

机器学习(ML)和深度学习(DL)领域在过去几年中取得了惊人的进展。现代的ML/DL应用已经超出了资源要求,超过了单个节点的能力。然而,这只是整个数据处理环境的一小部分,它还必须支持大量的数据工程,用于数据前后的处理、通信和系统集成。围绕ML/DL应用的数据工具需要能够轻松地与现有的多种语言的ML/DL框架集成,这尤其能提高用户的生产力和效率。所有这些都要求有一个高效和高度分布式的数据处理综合方法,然而今天许多流行的数据分析工具无法同时满足所有这些要求。

本演讲介绍了Cylon DataFrame,它是一个开源的高性能分布式Python API,类似于Pandas。它是在Apache Arrow数据格式的基础上用灵活的C++核心开发的。该演讲讨论了Cylon的架构以及它是如何大规模工作的。初步实验表明,Cylon的性能优于Apache Spark和Dask等流行的工具,关键操作的性能有了很大的提高,并有可能与它们整合。最后,我们展示了Cylon如何在流行的人工智能工具(如Pytorch、Tensorflow和Jupyter notebook)中实现高性能的数据预处理,而不会夺走数据科学家的生产力。

讲师:

Supun Kamburugamuve: Supun Kamburugamuve拥有计算机科学博士学位,专门研究高性能数据分析。他在印第安纳大学的数字科学中心担任首席软件工程师,领导Twister2和Cylon高性能数据分析项目。Supun是Apache软件基金会的当选成员,为许多开源项目做出了贡献,包括Apache WebServices项目和Apache Heron。在加入印第安纳大学之前,Supun从事中间件系统的工作,是WSO2 ESB项目的主要成员,该项目是一个开源的企业集成解决方案,正在被企业广泛使用。Supun在研究会议和技术会议上发表了许多技术演讲,包括Strata NY, Big Data Conference, 和Apache Con。