Airflow深度实践

吴琏

中文演讲 2021-08-07 14:50 GMT+8  #workflowdatagovernance

基于Airflow平台在上海数禾科技的真实案例,介绍Airflow在复杂场景下应用、运维以及定制开发的实践:

复杂场景的挑战: 1.跨云分布式部署如何保障高可用; 2.多类型调度场景如何有效支撑; 2.ETL作业如何保障高可用; 3.调度治理如何开展; 4.如何做到最大自动化;

同时针对一些业务需求: 1.数据分析人员有大量的调度需求,DAG Python脚本开发上手难度大 2.部门或者个人所属的DAG并不想被其他部门人员编辑、查看和手动调度? 3.DAG中的作业上线审批效率低、工作量大,如何去提高效率去避免一些非规范化的操作? 4.消息系统如何触发作业跑批?

分享相应的优化方案: 1.DAG配置可视化:界面配置DAG参数,后台自动生成DAG文件。 2.DAG权限控制:分部门分DAG赋权,区分读、写、执行。 3.作业规范化监控:配置检测规则去监控作业是否符合规则,执行相应的提示。 4.事件触发插件:接收Sensor作业和AMQP等各类消息,触发相应作业执行。

讲师:

吴琏: 上海数禾公司的大数据开发工程师,有2年的airflow使用、维护和开发经验,对airflow有很深的理解,希望自己的经验和理解能给airflow开源社区贡献力量