使用Apache Druid进行高级实时和批量分析

Tijo Thomas

英文演讲 2021-08-08 13:30 GMT+8 #streaming

现代流式分析技术擅长以实时或准实时的方式处理数据。同时，其他大数据技术也可以很好地查询历史数据。但是，当查询同时涉及实时数据和历史数据时，这些技术通常无法提供最优结果。

很多生产实践会采用 Lambda 架构，将查询分为实时查询和历史查询两条路径来解决问题，前者被提交到处理实时数据的系统，而后者被提交到处理历史数据的系统，最终结果来自随后的合并输出。对于查询和合并结果的逻辑都是预定义的场景，这种方式是可行的，但对于聚合逻辑横跨实时和历史数据的即席/分析性查询来说，这种方法具有明显的局限性。

Apache Druid 克服了批处理和实时系统的限制。它将返回实时和历史数据相结合的结果，并保证正确性，从而不需要合并逻辑。因此，Druid 能够快速、灵活地查询实时数据，并且延迟时间不到一秒。

在本次演讲中，我们将回顾基于 Apache Kafka、Apache Flink、Apache Spark 和其他云原生流计算平台构建的用于查询实时和批处理数据的现有分析基础设施的局限性，并介绍 Apache Druid 如何解决相关的问题。

讲师:

Tijo Thomas: Tijo Thomas是Imply的高级解决方案架构师，也是一位经验丰富的数据工程师。他有超过18年的软件开发经验，主要聚焦在大数据和流计算领域。在过去的几年里，他一直在帮助客户使用Apache Druid建立他们的流处理基础设施。在这期间，他积累了大量生产环境中应用的最佳实践。