字节跳动千亿文件 HDFS 集群实践

熊睦

中文演讲 2023-08-18 15:00 GMT+8  #datastorage

随着大数据技术的深入发展,数据规模和使用复杂度越来越高,Apache HDFS 面临着新的挑战。在字节跳动,HDFS 既是传统 Hadoop 数仓业务的存储,也是存算分离架构计算引擎的底座,还是机器学习模型训练的存储底座。

字节跳动大数据存储团队基于 HDFS 本身,搭建了服务于大规模计算资源调度跨多地区的存储调度能力提升计算任务稳定性;也提供了统合用户侧缓存、常规三副本、冷存的数据识别和冷热调度能力。

本次分享介绍字节跳动如何认识新兴场景对传统大数据存储的新要求,并分享技术和运维体系演进来支持不同应用场景。

Speakers:


熊睦: 字节跳动, 火山引擎大数据存储研发工程师,主要负责大数据存储 HDFS 元数据服务演进和上层计算生态支持。