数据湖 Iceberg 在小米的实践与优化

肖杰宝

中文演讲 2023-08-18 15:45 GMT+8  #datalake

简介:本次分享着重于介绍小米内部引入Iceberg的原因和现状,及利用Iceberg实现业务架构升级的实践,也包括了对Iceberg Parquet文件过滤能力的优化,和托管式表优化服务架构演进及落地等内容。 提纲:

  • 引入Iceberg的原因和现状 介绍小米内部引入Iceberg的原因,以及Iceberg在小米内部当前的生产状态
  • 湖仓架构升级实践 主要分为表升级实践和业务架构升级实践两部分。表升级实践主要讲述小米内部如何进行Hive表升级为Iceberg表的方案选型和产品化落地;业务架构升级实践主要介绍部分实际业务将链路升级到湖仓架构获得较大收益的实践内容
  • 能力优化 介绍Iceberg读取原理和开发的Parquet Page Index功能,进一步提升Iceberg的Data Skipping能力;介绍在Iceberg集成Parquet加密能力实现列级数据加密
  • 托管式表优化服务的构建和演进 主要介绍托管式表优化服务上线之前遇到的问题、系统架构,和支持的优化任务类型、表监控等内容
  • 未来规划 主要介绍未来小米将会基于Iceberg开展的工作内容,如索引构建、存储混合云架构、智能湖仓和缓存加速等内容

Speakers:


肖杰宝: 小米, 软件研发工程师, 小米软件研发工程师,目前主要负责小米内部数据湖Iceberg内核及表优化服务的研发工作。