在LinkedIn和Uber使用Apache Pinot进行大规模的实时分析

Siddharth Teotia, Yupeng Fu

英文演讲 2021-08-07 15:30 GMT+8  (ROOM : B) #bigdata

Apache Pinot(孵化中)是一个分布式列式OLAP引擎,可以实时摄取数据,并以低延迟和高吞吐量提供分析查询。自从Pinot进入Apache孵化期以来,在过去的几年里,它已经发展和成熟了。LinkedIn和Uber拥有最大的Pinot生产装置,我们利用Pinot作为离线(批处理)和实时数据的高速分析查询的事实解决方案。在这个联合演讲中,我们将深入探讨由LinkedIn和Uber贡献的一些主要功能。具体来说,我们将介绍以下功能,简要讨论设计和实现,遇到的挑战,以及它们如何在LinkedIn和Uber内部被大规模使用。

  • 支持Pinot中的文本索引,以便对任意文本数据进行有效查询。
  • 使用基于theta sketch的近似独立计数解决受众覆盖率估计问题
  • Upsert允许对具有主键的现有记录进行更新
  • 通过基于H3的地理索引,支持与地理相关的高性能查询的地理空间
  • 即使在第三方云存储不可用的情况下,深层存储旁路支持7x24实时摄取

讲师:

Siddharth Teotia: Siddharth在LinkedIn的Pinot团队工作,该团队隶属于系统和基础设施组。在加入LinkedIn之前,他在Oracle的数据库内核组工作了3年半,负责存储、索引和内存列式查询处理。在Oracle之前,Siddharth在Dremio工作了2年,是建立分布式数据湖查询引擎的早期工程师之一。他也是Apache Pinot和Apache Arrow的PMC成员。

Yupeng Fu: Yupeng是Uber的员工工程师,他负责Uber的实时平台和基础设施,包括多个由Kafka/Flink/Pinot等开源技术驱动的关键任务服务。Yupeng是Apache Pinot的 committer.。