基于Java的大数据机器学习方案

Qing Lan

中文演讲 2021-08-06 16:10 GMT+8  (ROOM : A) #bigdata

机器学习(ML)应用的成功取决于对大数据的利用。大多数大数据都是以非结构化格式提供的。大数据的可用性也可以是离线和在线的。虽然在python中也有ML任务的选项,但将Python应用程序整合到现有的基于Java/Scala的大数据管道中是相当具有挑战性的。除此之外,在Java/Scala中,很少有选择可以弥合处理大数据和使用同一库进行ML工作负载的差距。

为了解决上述问题,我们将用Java中的机器学习框架DJL来演示Java中的大数据ML解决方案。DJL提供了多种ML引擎,包括TensorFlow、PyTorch、Apache MXNet(正在孵化)。PaddlePaddle、ONNXRuntime等等。通过使用Apache Flink和Apache Spark,用户可以轻松建立他们的在线/离线ML管道。在会议结束时,听众将能够为所有不同的场景建立一个易于使用、高性能的ML管道。

讲师:

Qing Lan: Qing是AWS机器学习平台的一个SDE。他是DJL(djl.ai)的共同作者之一和Apache MXNet的PPMC成员。他于2017年毕业于哥伦比亚大学,获得计算机工程硕士学位。他拥有模型训练和推理方面的专业知识。