生成式AI的分布式缓存:优化云上的LLM数据管道

傅正佳

中文演讲 2023-08-18 13:30 GMT+8  #ai

大型语言模型(LLM)训练是一个资源密集型的过程,需要大量的存储、CPU和GPU资源,以及众多小文件的频繁输入输出。随着LLMs越来越复杂,对高性能、可扩展的数据处理解决方案的需求也在增加,特别是在分布式云训练的背景下。传统的数据平台架构难以维持所需的I/O吞吐量,导致GPU利用不足和资源使用效率低下。在此背景下,专为优化云上LLM数据管道的Alluxio最新分布式缓存架构系统应运而生。

Alluxio与Spark是来自加州大学伯克利分校AMP实验室的姊妹项目。Spark+Alluxio的组合在AI场景下提供了高性能、可扩展和强大的数据处理和分析能力。它可以加速大规模数据处理和机器学习任务,提供快速的数据访问和共享机制,同时优化数据管道和保持数据一致性。这使得AI工作负载能够更高效地处理和分析大规模数据集,从而加速模型训练、推理和决策过程。

1、分布式缓存系统的设计和实现及如何解决LLM训练和推理的I/O挑战 2、探讨数据访问模式的独特要求,以及分享通过云上分布式缓存优化数据管道的最佳实践 3、基于Alluxio+Spark的实现提升效率打造现代化的数据平台 4、实践案例:微软、腾讯和知乎的Alluxio应用 5、探索如何利用可扩展、高效和强大的数据基础设施进行LLM训练和推理

Speakers:


傅正佳: Alluxio, 开源布道师, 傅正佳,Alluxio 开源布道师。本科毕业于上海交通大学电子系,随后取得香港中文大学信息工程博士学位,毕业后加入新加坡高级数字科学中心(美国伊利诺伊大学在新加坡的研究所)从事科研工作,在计算机网络和分布式系统领域相关的顶级国际会议发表多篇论文。加入Alluxio前曾在新加坡科技公司Bigo Technology担任机器学习研发总监。