开源大数据Studio: Dolphinscheduler + Notebook

高楚枫

中文演讲 2022-07-31 15:30 GMT+8  (ROOM : A) #bigdata

对于大数据工程师来说,大数据作业的开发和调度通常是在不同的环境中进行的。需要在IDE中完成作业开发、调试后,再将代码copy paste或打包到调度工具中进行调度。一方面影响了开发效率,另一方面由于环境的差异导致调度时可能产生难以预知的问题。 本演讲将介绍并演示如何采用开源的Apache Dolphinscheduler调度工具和Apache Zeppelin以及Jupyter两种Notebook组成大数据开发Studio。数据平台团队适配好相关环境后,大数据/AI工程师在线交互式开发/debug,并进行一键调度,无需再花费时间处理由于环境不一致导致的适配问题,极大地提高了大数据作业到开发效率和体验。 演讲中所涉及的组件间整合代码已完全开源,欢迎下载体验。

Speakers:


高楚枫: 阿里云EMR数据开发团队, 基础平台开发工程师, 毕业于上海交通大学,Purdue University。ex-SDE@Amazon, Seattle。现任职于阿里云EMR数据开发团队。Apache Dolphinscheduler, Airflow, Zeppelin Contributor。对新型大数据开发平台感兴趣。