在Kubernetes集群上使用Livy会话执行交互式数据工程工作负载

Anmol Chaturvedi, Haripriya Bendapudi, Praneet Sharma

英文演讲 2022-07-30 16:50 GMT+8 (ROOM : B) #bigdata

最近，对时间关键的短期交互spark工作负载的需求急剧增长。一个常见的用例是数据准备，其中通过与数据子集(数据工作表)进行spark驱动的交互来构建数据集成步骤的管道，并实时可视化转换数据响应。然后，这个交互式spark查询配方被发布出来，应用于超大规模的pb级数据。

Informatica通过与托管的Kubernetes集群上的Apache Livy的深度集成来支持这些用例。本节将详细介绍Apache Livy SDK支持并发异步提交spark代码片段(语句)的增强。该框架的深入研究将涵盖Livy服务器作为Kubernetes服务的惰性部署，在客户端代理应用程序中进行的优化以实现亚秒查询分派，以及一个新的基于Java CompletableFuture的用于异步查询监控和结果检索的侦听器。在本次演讲中，我们还将讨论该框架如何优先排序并支持快速故障调度模式，而不是像传统的批处理工作流需求，如作业恢复、集群状态正确性和懒惰作业资源可用性等。最后，我们将总结观察到的与常规Spark作业相比，该框架在作业运行时获得的性能提升。

Speakers:

Anmol Chaturvedi: Informatica公司, 工程总监, Anmol Chaturvedi负责在Informatica的弹性无服务器云数据引擎平台上集成了云MDM、云数据工程引擎、云分析和云数据质量套件。他曾负责数据虚拟化套件，以及Informatica内部设计的本地分布式数据处理引擎。他拥有超过15年的企业软件开发经验，涉及数据管理、分布式计算和数据库。
Haripriya Bendapudi: 高级软件工程师，Informatica。在过去3年多的时间里，一直从事云数据集成弹性产品的工作，通过利用Kubernetes上的Spark，帮助用户以时间和成本效益的方式运行实时数据集成管线。她拥有康奈尔大学的硕士学位。工作之余，她喜欢徒步旅行，并将她的烹饪技能用于测试。

Praneet Sharma: Informatica公司的首席软件工程师，在数据集成领域有8年的经验。负责利用Spark、Kubernetes和Livy等开源技术，在Informatica的云数据集成弹性和高级无服务器产品中设计和实现功能。