字节跳动 Spark 支持万卡模型推理实践

刘畅,张永强

中文演讲 2023-08-18 14:00 GMT+8  #ai

随着云原生的发展,Kubernetes 由于其强大的生态构建能力和影响力,使得包括大数据、AI 在内越来越多类型的负载应用开始向 Kubernetes 迁移,字节内部探索 Spark 从 Hadoop 迁移到 Kubernetes,使得作业云原生化运行。同时搜索有大量GPU需求量极大的离线批处理任务,随着潮汐任务上量,发现一系列问题: GPU 算力供给(卡时数)仍有较大缺口、单机房资源池规模无法匹配业务单位任务计算量增长、在线资源池算力浪费问题、缺乏统一平台入口。Spark 和 AML(应用机器学习)合作,通过 GPU 共享技术、混部 GPU 调度、Spark引擎增强,平台及周边生态完善等途径,支持万张卡混部 GPU 模型推理离线计算,支持作业80亿多模态训练数据使用混部 GPU 7k卡 7.5h完成模型打分数据清洗,并且资源使用效率、稳定性均得到了显著提升。

Speakers:


刘畅: 字节跳动, 字节跳动基础架构工程师, 于 2020 年加入字节跳动,就职于基础架构批式计算团队,主要负责 Spark 云原生方向工作,Spark On Kubernetes 等方向研发。


张永强: 字节跳动, 机器学习系统工程师, 于 2022 年加入字节跳动,就职于 AML 机器学习系统团队,参与构建大规模机器学习平台