王峰:数智化趋势下的SRE转型实践
今天分享的是:王峰:数智化趋势下的SRE转型实践
报告共计:18页
《数智化趋势下的SRE转型实践》围绕移动云业务发展过程中的SRE转型展开,详细阐述了转型背景、SRE本质、转型要素及实践总结,为企业在复杂运维环境下实现SRE转型提供了参考。
- 转型背景:移动云业务呈高速、高质增长态势,2023年中期营收达422亿元,同比增长80.5%。然而,其运维面临诸多挑战,如复杂的依赖关系,涉及基础资源、网络、产品间及内部等多方面;海量的资源规模,包括硬件、资源和告警;以及云产品快速迭代带来的海量变更支撑难题。
- SRE的实质:SRE即网站可靠性工程,是将软件工程与运维运营相融合的实践方法。其核心在于让软件工程师运用软件工程手段解决运维问题,开发运维产品保障生产环境中产品的稳定运行,确保大规模分布式系统具备高可用性、可靠性和可拓展性。
- 转型三要素:转型初期面临外部和内部问题,如海量运维冲击、人员研发能力不足、机制流程缺失、平台工具能力欠缺等。为此,从学习相关书籍和交流借鉴入手,以“运维是设计出来的”为理念,抓住“人、流程、工具”三要素。“人”方面,提升岗位天花板,树立榜样促进能力提升,培养“能编码、精业务、谋全网”的SRE全栈工程师;“流程”方面,明确专项流程,划分责任田,动态优化,推动从“人治”到“法治”转变;“工具”方面,通过平台PaaS底座封装底层能力,提供场景化运维自动化服务,实现运维工具SaaS化开发交付 。
- 实践总结:在实践中,“人”的能力要跟上业务需求,平台应引导最佳实践;“流程”设计要围绕业务目标,明确责任主体;“工具”开发要引入DevOps模式提升质效,有条件时投入运维大模型建设。同时,SRE专业团队与平台团队相互关联,平台团队应向转型落地的支撑者、推进的统筹者、理念的布道者转变,助力SRE运维能力提升。
以下为报告节选内容
报告共计: 18页
中小未来圈,你需要的资料,我这里都有!