Apache Paimon 流式数据湖:CDC 入湖与流读

李劲松

中文演讲 2023-08-19 14:00 GMT+8  #datalake

Apache Paimon (incubating) 是一项流式数据湖存储技术,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。Paimon 采用开放的数据格式和技术理念,可以与 Apache Flink / Spark / Trino 等诸多业界主流计算引擎进行对接。

此次分享主要介绍 Paimon:

  • CDC 入湖 Schema Evolution
  • CDC 整库入湖
  • CDC 入湖部分列更新
  • 实时变更日志流读

Speakers:


李劲松: 阿里巴巴, 高级技术专家, 阿里云开源大数据表存储团队负责人,负责 Apache Paimon 的研发和产品,PPMC Member of Apache Paimon,PMC member of Apache Flink,Committer of Apache Iceberg&Beam。先后从事分布式流计算、分布式批计算、湖存储,目前专注于流式湖仓一体的技术。