当Apache Atlas遇到Apache Flink

Josh Yeh, Yan Liu

英文演讲 2021-08-07 15:30 GMT+8  (ROOM : A) #bigdata

Apache Atlas已经成为元数据管理的明星项目之一,它可以处理从数据线到数据标签和术语。Apache Flink也已经成为了流处理的标准,虽然Apache Flink在大规模处理数据方面很强大,但追踪数据线成为了Apache Flink的一个问题。

在这次会议上,我想分享最近社区在连接Apache Atlas和Apache Flink方面的进展,以及社区如何从跟踪Apache Flink应用的元数据中获益。

讲师:

Josh Yeh: Cloudera软件工程师,目前正在研究使用Apache Flink和Apache Atlas的流式工作流治理。之前的项目包括在Cloudera多租户SAAS平台和企业内部产品Cloudera Data Science Workbench(CDSW)上开发机器学习操作(MLOPS),利用ML/DL/AI框架建立数据管道/工作负载自动化:keras, pytorch, tensorflow, CDSW Nvidia GPU支持,以及Cloudera Manager HDFS和Hive备份和灾难恢复(BDR)。

Yan Liu:在Cloudera做了5年的解决方案工程师,我帮助很多客户成功地将Apache项目应用到生产系统中。