Kafka 分层存储

Satish Duggana, Sriharsha Chintalapani

英文演讲 2021-08-06 14:10 GMT+8  #messaging

Kafka是许多组织中数据基础设施的一个重要组成部分。当Kafka集群增长,更多的数据被长期存储在Kafka中时,与可扩展性、效率和操作有关的几个问题就成为需要解决的问题。Kafka集群的存储通常是通过向集群添加更多的 broker 来扩展。但这也给集群增加了不必要的内存和CPU,使得整体的存储成本与在外部存储中存储旧数据相比效率较低。 分层存储的引入是为了将Kafka的存储扩展到Kafka集群可用的本地存储之外,将旧数据保留在更便宜的存储中,如HDFS、S3、Azure或GCS,对Kafka的内部影响最小。

在本演讲环节,我们将与大家探讨:

  • 分层存储如何解决上述问题,并带来其他一些优势
  • 分层存储的高层架构
  • 分层存储未来计划

讲师:

Satish Duggana:Satish是Uber的数据信息主管。 Apache Storm Committer 和PMC成员。 Sriharsha Chintalapani: Uber的数据架构师,Apache Kafka Committer和PMC成员

Sriharsha Chintalapani: 是Uber的数据产品和流基础设施的技术负责人。他是Apache Kafka和StormCommitter 和PMC成员。