基于数据湖格式构建流式增量数仓——CDC

毕岩

中文演讲 2022-07-30 14:50 GMT+8  #streaming

随着数据湖格式的兴起和应用,如何在实际生产环境中更好的与现有大数据生态结合,解决当前大数据/数仓架构下的难点,是需要持续去探索和丰富的。该topic探讨在经典的数仓CDC场景下,如何将Apache Hudi和Apache Spark结合,实现CDC解决方案,来构建完整的流式增量数仓。

Speakers:


毕岩: 阿里云智能-计算平台事业部-开源大数据平台, 技术专家, 就职于阿里云计算平台开源大数据部门,专注于Apache Spark、Hudi等开源项目,及与阿里云EMR和DLF产品的集成。