字节跳动 Spark 支持万卡模型推理实践

刘畅,张永强

中文演讲 2023-08-18 14:00 GMT+8 #ai

随着云原生的发展，Kubernetes 由于其强大的生态构建能力和影响力，使得包括大数据、AI 在内越来越多类型的负载应用开始向 Kubernetes 迁移，字节内部探索 Spark 从 Hadoop 迁移到 Kubernetes，使得作业云原生化运行。同时搜索有大量GPU需求量极大的离线批处理任务，随着潮汐任务上量，发现一系列问题： GPU 算力供给(卡时数)仍有较大缺口、单机房资源池规模无法匹配业务单位任务计算量增长、在线资源池算力浪费问题、缺乏统一平台入口。Spark 和 AML(应用机器学习)合作，通过 GPU 共享技术、混部 GPU 调度、Spark引擎增强，平台及周边生态完善等途径，支持万张卡混部 GPU 模型推理离线计算，支持作业80亿多模态训练数据使用混部 GPU 7k卡 7.5h完成模型打分数据清洗，并且资源使用效率、稳定性均得到了显著提升。

Speakers:

刘畅: 字节跳动, 字节跳动基础架构工程师, 于 2020 年加入字节跳动，就职于基础架构批式计算团队，主要负责 Spark 云原生方向工作，Spark On Kubernetes 等方向研发。

张永强: 字节跳动, 机器学习系统工程师, 于 2022 年加入字节跳动，就职于 AML 机器学习系统团队，参与构建大规模机器学习平台