火山引擎(唐鹏程):字节跳动云原生开源-资源管理与成本优化

2025-05-01ASPCMS社区 - fjmyhfvclm

今天分享的是:火山引擎(唐鹏程):字节跳动云原生开源-资源管理与成本优化

报告共计:27页

本文围绕字节跳动云原生开源中的资源管理与成本优化展开,详细介绍了相关背景、技术方案及实践成果。

1. 业务体系与云原生历程:字节跳动业务涵盖微服务、推广搜服务、机器学习和大数据、存储服务等,各有特点和资源需求。其云原生发展历程丰富,从2016年TCE启动建设,到2025年实现云原生联邦演进,如今拥有大规模生产集群、海量在线微服务和离线任务,云原生为业务稳定性提供保障。

2. 云原生资源管理:业务云原生化带来更复杂的资源管理需求,如对GPU等多样化资源的管理,以及更精细的分配策略。针对K8s原生调度器的局限,提出拓扑感知调度整体方案。通过QoS资源管理器、Katalyst Agent和Katalyst Scheduler等组件协作,实现插件化资源管理、定制资源分配策略和基于微拓扑信息的调度,满足不同业务场景需求,如GPU - RDMA拓扑亲和等场景。

3. 云原生成本优化:资源规划面临利用率波动、资源浪费等挑战。分时弹性混部方案的核心逻辑是在线业务弹性伸缩、整机出让给离线业务。通过实例数和节点池管理,动态调整业务副本数和节点类型。同时,从业务框架、资源分配和回收等方面保障离线资源稳定性,视频编解码业务和GPU弹性训练就是很好的案例。

4. 云原生开源:Katalyst是字节跳动开源的在离线混部系统,具备差异化QoS定义、智能化资源策略、精细化管理和多样化成本优化等核心能力。在内部实践中显著提升资源利用率,相关指标稳定。此外,还介绍了其开源社区的活动时间和交流渠道。

总之,字节跳动在云原生领域的实践,通过有效的资源管理和成本优化手段,为业务发展提供有力支持,其开源成果也为云原生社区贡献了经验。

以下为报告节选内容

全部评论