通过使用Apache CarbonData的索引加快大数据分析的速度

Akash R Nilugal, Kunal Kapoor

英文演讲 2021-08-06 16:10 GMT+8  (ROOM : B) #bigdata

21世纪的数据就像18世纪的石油:如果以智能的方式进行处理,是一种巨大的、未开发的宝贵资产。大数据的存储和分析在成本和时间上都是具有挑战性和昂贵的。分析解决方案需要不断自我调整,以跟上指数级的数据增长速度的挑战。 Apache CarbonData是一个统一的存储解决方案+文件格式,旨在优化查询性能,从而降低分析成本。Apache CarbonData已经被100多个开源用户采用。在数据库中,索引是主要的功能之一,它基本上可以帮助查询而不需要扫描每一行。从这个概念中得到的灵感,Apache CarbonData支持自定义索引,如最小/最大,Bloom,Lucene,二级索引和物化视图,以加快行级更新,删除,OLAP和点查询。 本演讲强调了CarbonData的自定义索引架构和分布式索引缓存服务器,这有助于提供更快的查询结果,以及未来的挑战和范围。

讲师:

Akash R Nilugal: 我是Apache carbondata PMC和Committer,在华为Banglore研究中心的云和AI/数据平台团队担任高级技术负责人。我从事大数据工作已经5年了,主要是Apache carbondata的工作,对大数据的索引支持、物化视图、大数据的CDC、Spark SQL查询优化、Spark结构化流、数据湖和数据仓库功能、trino.c等领域感兴趣。

Kunal Kapoor: 我是Apache carbondata PMC和Committer,在Banglore研究中心的云计算和人工智能/数据平台团队担任系统架构师,华为从事大数据技术,如Apache carbondata、Apache spark、Apache hive,至今已有5年。一些主要的功能包括分布式索引缓存服务器,Hive + Carbondata集成,预聚合支持,S3对carbondata的支持,carbondata的二级索引,Carbondata中的Spark SQL查询优化。