字节跳动基于 Apache Hudi 的数据湖表优化管理服务

喻兆靖

中文演讲 2022-07-30 14:50 GMT+8  (ROOM : A) #bigdata

字节跳动目前是国内数据湖覆盖数据最多的公司之一,覆盖了百 PB 级别的数据。 随着任务数的增加,对于任务的管理成本也是大幅度增加,并且 Hudi 本身提供的表服务例如 compaction,clustering 等提供的策略比较基础。 在此背景下字节跳动实现了一个数据湖管理优化表优化管理服务,用于统一管理以及优化 Hudi 表,对自适应生成的 Hudi 表优化任务进行全托管,且近期计划贡献到 Hudi 社区。

Speakers:


喻兆靖: 字节跳动, 高级开发工程师, 目前在字节跳动数据湖团队负责数据湖引擎开发,同时活跃于 Hudi 社区,是Apache Hudi committer。