OpenMLDB: 赋能特征抽取从Spark走向毫秒级实时计算

卢冕

中文演讲 2022-07-29 14:40 GMT+8  #ai

OpenMLDB 是一个线上线下一致的生产级特征计算平台。它为机器学习的训练和推理提供一致性的特征,并且保证毫秒级的线上高性能实时特征计算。OpenMLDB 可以实现开发即上线的优化目标,即数据科学家基于 SQL 写的离线特征脚本,可以直接部署上线,提供生产级的实时特征计算服务。在本次分享中,我们将介绍 OpenMLDB 的最重要的架构设计理念,包括:(1)基于 Spark 优化的批处理特征计算 SQL 引擎; (2)基于自研的高性能时序数据库的实时 SQL 引擎;(3)保证线上线下一致性、串联批处理和实时引擎的一致性执行计划生成器。基于以上的主要核心模块,OpenMLDB 最终实现开发即上线的目标,为机器学习提供线上线下一致性的特征。

Speakers:


卢冕博士是开源机器学习数据库项目 OpenMLDB 的 PMC 核心成员,现任职于第四范式,是数据库和高性能计算团队的 Tech Lead。他获得香港科技大学计算机科学博士学位,主要研究方向为数据库和异构计算。在 VLDB, SIGMOD, ICPP 等国际顶级学术会议和期刊发表相关论文 20 余篇,被引用 2000+。他目前在第四范式的研发工作是带领团队构建下一代高性能、可扩展、低成本的 AI 软硬件基础架构。