Flink ML: 基于Apache Flink的实时机器学习

高赟,张智鹏

中文演讲 2022-07-30 15:20 GMT+8  #ai

本次演讲中,高赟博士和张智鹏博士将介绍在 Apache Flink 机器学习库 (Flink ML) 中已经完成的工作,近期的发展计划,以及 Flink ML 的发展愿景。

我们设计了原生支持实时机器学习的算法接口,算法使用者可以更容易配置,组合和部署在线预测算法和在线学习算法。所设计的算法接口可以支持多输入多输出,以及将算法模块以有向图的方式进行组合使用。 我们设计并实现了基于 DataStream 的迭代引擎,以取代基于 DataSet 的迭代引擎。针对各种算法的需求,我们设计了更容易使用的迭代引擎接口,为算法开发者优化算法性能提供更丰富的接口选择。在此基础上,我们实现了15+个高效、易用的离线/在线的机器学习算法。

我们计划按照新设计的算法接口以及迭代引擎,将阿里云研发多年的 Alink 算法库改造并贡献进入 Flink ML。通过将 Apache Flink 的强大社区生态,技术领先的 Alink 算法库,与新设计的算法接口结合在一起,我们希望做到优势互补,帮助 Flink ML 成为最容易使用的,覆盖最多算法的,以及应用最广泛的流批一体机器学习算法库。

Speakers:


高赟: 阿里巴巴, 技术专家, 阿里巴巴技术专家,Apache Flink PMC/committer

高赟博士毕业于中国科学院大学,加入阿里巴巴实时计算团队,主要从事 Flink Runtime / DataStream 方向的开发与改进。


张智鹏: 阿里巴巴, 高级算法工程师, Apache Flink committer.

张智鹏博士毕业于北京大学,主要从事分布式机器学习系统/算法相关的研究。毕业后加入阿里巴巴机器学习团队,主要从事Flink相关的机器学习开发与改进。