使用Apache Flink, Apache Hive和Apache Iceberg构建实时数据仓库的挑战和解决方案

Yan Liu 刘岩

中文演讲 2023-08-18 13:30 GMT+8  #datalake

在当下,有很多的技术组合可以用于迁移基于批处理的数据仓库至实时处理的数据仓库。为了能够完整的迁移批处理的数据仓库,我们需要额外的处理在实时架构下遇到的迟到事件,脏数据路由以及由这些问题引起的结果集修复等问题。本演讲主要关注在Apache Flink, Apache蜂巢和Apache冰山在围绕上述挑战下的社区工作总结以及如何使用Apache Flink, Apache蜂巢和Apache冰山构建一个企业级的实时数据仓库。

Speakers:


刘岩: Cloudera, Apache Hive Contributor,Apache Flink Contributor,Cloudera Solution Eng, Apache Hive和Apache Flink贡献者,Cloudera解决方案工程。超过10年的大数据实践经验,我目前的重点是使用Apache Flink, Apache Hive和Apache Iceberg的实时数据仓库。