Spark Structured Streaming在数据湖准实时场景中的应用

彭志伟

中文演讲 2021-08-07 14:50 GMT+8 #streaming

数据湖是目前流行的大数据存储和查询解决方案。基于 DeltaLake、Hudi、Iceburg 等主流数据湖格式，可以实现大规模数据的近实时写入。支持更新删除操作，实现数据库 binlog 等 CDC 类型数据源进入湖中。Spark Structured Streaming 是一种基于 MiniBatch 执行模式的流处理框架，它可以为数据湖格式的近实时写入提供更好的吞吐量性能。通过 Spark Structured Streaming 技术，可以有效地实现 CDC 数据的近实时写入操作。本文主要介绍 Spark Structured Streaming 在 CDC 数据源进入数据湖现场的应用，以及涉及的技术难点，包括实时合并性能优化、CDC数据的多版本问题以及 CDC Schema变化场景下的解决方案。

讲师:

彭志伟: 阿里云EMR团队技术专家，Apache Hudi & Apache Calcite Committer，多年流计算SQL引擎开发经验，目前主要负责数据湖格式以及实时入湖方面的研究和开发工作。