字节跳动深度学习批流一体训练实践
毛洪玥
中文演讲 2023-08-18 16:15 GMT+8 #ai随着公司业务发展,算法复杂度不断提升,越来越多的算法模型在离线更新的基础上探索实时训练以提提升模型效果。为实现复杂的离线和实时训练灵活编排、自由切换,能在更大范围内调度在离线计算资源,机器学习模型训练逐渐趋于批流一体化。 在字节跳动内部批式训练数据主要基于Apache Iceberg、Apache HDFS等,流式数据主要基于Apache Kafka。在此背景下,我们实践并开源了具有海量多阶段多源数据灵活编排能力, 高效训练的批流一体机器学习训练框架。支撑了字节跳动日均1万+作业,500万核心CPU任务,1万卡GPU任务,单任务平均数据量500TB 训练规模。 我们将分享包括字节跳动机器学习训练调度框架的架构演进、批流一体实践、异构弹性训练等部分内容。着重介绍在MFTC(批流一体协同训练)场景下,多阶段多数据源混合编排、流式样本全局Shuffle、全链路Native化,训练数据洞察等实践经验。 全新的调度架构,实现了更有效的利用机器资源池,统一资源调度入口,更灵活的多角色调度,弹性扩缩容,提高资源利用率。批流一体的混合训练能力可以支持更高的数据消费吞吐,实现灵活的离线数据与实时数据混合编排,同时提供数据优先级保障,数据可视化能力。 演讲提纲:
- 现状与背景
- 批流一体训练整体架构介绍:IceBerg 及 Kafka 选型优势
- 字节跳动 调度框架演进过程
- Primus 开源项目介绍
- 批流一体训练实践
- 批流一体业务背景、问题与挑战
- 字节跳动实战经验
- IceBerg及Kafka多阶段多数据源编排
- DataLoading技术演进与性能优化
- All2Allshuffle、Batch/Stream 优先级调度
- Insight训练数据洞察
- Primus Flow实践:与Spark结合,实现具有预处理功能的训练
Speakers:
毛洪玥: 字节跳动基础架构工程师, 于2022年加入字节跳动,从事机器学习训练研发工作,主要负责大规模云原生批流一体AI模型训练引擎,支撑了包括抖音视频推荐、头条推荐、穿山甲广告、千川图文广告等业务。