基于 Flink 构建实时数据湖的实践

王正,闵中元

中文演讲 2023-08-18 14:00 GMT+8  #datalake

实时数据湖是现代数据架构的核心组成部分,它允许企业实时分析和查询大量数据。在这场分享中,我们将首先介绍实时数据湖目前存在的痛点,比如数据的高时效性,多样性,一致性和准确性等。然后介绍我们如何基于 Flink 和 Iceberg 构建实时数据湖,主要通过如下两部分展开:如何将数据实时入湖、如何使用 Flink 进行 OLAP 临时查询。最后介绍一下字节跳动在实时数据湖中的一些实践收益。

Speakers:


王正: 字节跳动, 火山引擎 云原生计算研发工程师, 于 2021 年加入字节跳动,就职于基础架构开放平台团队,主要负责 Serverless Flink等方向研发。


闵中元: 字节跳动, 火山引擎云原生计算研发工程师, 于 2021 年加入字节跳动,就职于基础架构开放平台团队,主要负责 Serverless Flink ,Flink OLAP 等方向研发。