构建分布式容错可扩展的分析栈的挑战

Nishant Bangarwa

英文演讲 2021-08-06 14:10 GMT+8 (ROOM : B) #bigdata

截至目前，最大的Apache druid集群拥有超过50多万亿的事件，相当于超过500PB的原始数据，并且不断地摄取新的数据流，以前所未有的速度增长。在发展druid的过程中，我们面临着许多技术挑战、设计决策、成本与性能的权衡、限制因素，以使其在不牺牲性能的情况下处理PB级的数据。

在这次演讲中，我们将讨论任何设计生产就绪的可扩展分析堆栈的人，由于各种限制，在他们的道路上预计会遇到的一般要求和关键挑战。我们还将讨论我们随着时间的推移而形成的学习和策略，以及我们将Apache Druid发展为一个强大的分布式容错可扩展分析数据存储的路径。

我们希望在这次会议上讨论的策略能够帮助任何正在努力跟上数据分析不断增长的需求的人。

讲师:

Nishant Bangarwa: Nishant是Rilldata的联合创始人和工程主管。他是一个活跃的开源贡献者，是Apache Druid和Apache Superset的PMC成员。他也是Apache Calcite和Apache Hive的提交者。在开始Rilldata之前，他是Cloudera的数据仓库团队和Metamarkets Druid团队的一员，负责管理大规模的Apache Druid部署。他拥有印度Kurukshetra国家理工学院的计算机科学学士学位。