智慧运维 | 大模型DeepSeek开启运维新篇章
本文引用的参考文献搜集于互联网,非原创,如有侵权请联系小编删除!
请勿将该文章用于任何商业用途,仅供学习参考,违者后果自负!️更多参考公众号:无忧智库
在数字化浪潮汹涌澎湃的当下,运维领域正面临着一场前所未有的深刻变革。随着业务系统的日益复杂,传统的运维模式逐渐难以满足企业对高效、精准运维的需求。而大模型,尤其是 DeepSeek,在运维场景中的应用,正逐渐成为推动运维智能化转型的关键力量,加速实现从人工运维到智能运维的跨越,为企业数字化转型注入强劲动力。
一、智能运维:从 L1 到 L5 的进化之旅运维的分级演变- ️L1 - ScriptOps :专家经验运维,脚本编辑人工执行,执行依赖人 + 脚本,决策由人做出。
- ️L2 - ToolsOps :工具化运维,大部分工作实现工具化、流程化,执行由人 + 系统完成(人占比 20%),决策仍由人主导。
- ️L3 - DevOps :运维开发融合,运维工具体系和数据体系建设完成,执行由人 + 系统完成(人占比 80%),决策由人 + 系统共同完成(系统占比 20%)。
- ️L4 - DataOps :数据化运维,主要运维场景实现流程化免干预。
- ️L5 - AIOPS :智能运维,AI 分析与决策,自动化工具链 + 可视化,高度自动化 + 串联智能化,系统基于已有经验知识在不同场景下自主决策处置,执行由人 + 系统完成(人占比 5%,系统占比 95%),决策由人 + 系统共同完成(系统占比 95%)。
大语言模型作为 IT 运维领域新质生产力的重要组成部分,推动数字化转型的颠覆式创新,其在运维领域的应用前景广阔,主要体现在:
- ️通用接口 :“自然语言” 成为连接运维人员、运维工具、运维文档、运维数据的通用接口。
- ️人机协同 :以 “聊天” 技术为载体实现人机协同完成运维任务。
- ️技术凸显 :提示词工程、检索增强、智能体逐步在智能运维应用场景实践中凸显成效。
- ️岗位助手 :运维知识问答、售后技术支持。例如,快速准确地回答运维人员关于系统配置、故障处理等问题,提供技术支持方案。
- ️数据工具 :日志摘要 / 理解、告警摘要 / 标签、数据注释 / 标签。能够对海量日志进行快速摘要和理解,提取关键信息,帮助运维人员快速定位问题。
- ️岗位培训教练 :运维脚本解读 / 生成、培训题目自动生成 / 考核。自动生成运维脚本,辅助运维人员进行脚本编写学习,同时生成培训题目和考核标准,提升培训效率和质量。
- ️数据探索 / 分析工具 :Text2QL(自然语言查询)、Text2API(自然语言工具调用)。运维人员可以通过自然语言直接查询数据库或调用工具,无需编写复杂的 SQL 语句或 API 调用代码,提高数据探索和分析的效率。
- ️专业岗位专家智能体 :产品厂商智能体、专业领域智能体(网络、数据库、应用)。针对特定产品或专业领域提供专家级的运维建议和解决方案,例如数据库性能优化、网络故障诊断等。
- ️虚拟作战室 :运维人员、工具智能体、岗位智能体协同完成运维任务,基于 “聊天” 的人机交互协同应急处置。在应急情况下,各智能体协同工作,快速响应和处理故障。
当生产环境出现严重故障,如过去半小时内,发生了 3456 条告警,涉及 50 套应用系统、100 台物理机、200 台虚拟机、50 个数据库实例、50 个中间件实例,且近期无相关生产变更时:
- DeepSeek 能够执行拓扑根因定界分析,生成拓扑定界结果图,并提供根因组件相关信息。
- 对异常日志进行解读,如 “Director state has changed to Offline.” 表示存储控制器状态变为离线,可能导致存储功能异常。
- 在故障恢复后,还能评估故障影响范围,如手机银行、柜面等交易受影响,期间成功交易量为 0,上周同期交易量约 244587 笔,并可生成详尽的评估报告。
- ️传统方法 :采用正则表达式等传统技术进行日志解析,但难以处理复杂的日志格式和语义。
- ️深度学习方法 :利用深度学习算法对日志进行解析,虽然比传统方法更智能,但在处理大规模日志时效率仍有限。
- ️LLM 方法 :采用大语言模型(LLM)进行日志解析,能够更好地理解日志的语义和上下文。基于异步大模型调度的方法,将任务异步提交至大模型,允许任务独立返回,解决了复杂日志拖慢整体进度的问题,提升了整体效率。同时,通过统一调度、解析任务与调度逻辑解耦、生成管理等机制,进一步优化日志解析过程,确保语义一致性和稳定性。
- ️基于大模型的 Gen-SQL :采用先生成再检索的范式,利用大模型预训练过程中取得的先验知识,先根据问题猜测所需表结构,再用向量检索器召回相关表,实现从自然语言到 SQL 查询的转换。
- ️Text2SQL + RAG(检索增强) :通过构建三层树状索引(表、列、值为粒度),在推理阶段计算输入问题与表数据、列数据和值数据的相关度,生成表分数、列分数和值分数,从而更精准地生成 SQL 查询。同时,结合外部知识反馈,包括描述性知识和 Text-SQL 对,进一步提升 SQL 生成的准确率。
在复杂多模态问答中,传统 RAG 方法难以有效处理多模态信息融合和复杂问题的分解与解答。基于静态 DAG 的方法通过以下流程实现多模态检索增强:
- ️问题分解与子问题生成 :对复杂问题进行分解,生成多个子问题。
- ️LLM 与 DAG 结合 :利用 LLM 的语义理解和生成能力,结合 DAG 的结构化表示,对子问题进行检索和解答。
- ️答案聚合与生成 :将各个子问题的答案进行聚合,生成最终的完整答案。
该方法具有以下优势:
- 解决效率问题,提高复杂问题的解答速度。
- 避免 “意图偏离” 问题,确保答案与问题的语义一致性。
- 通过训练 LLM 自动生成多个子问题,提升问题分解的准确性和多样性。
- 考虑样本分布一致性,优化模型训练数据的质量。
- ️运维大模型训练 :收集故障处置过程中运维专家的思考、操作历史记录,训练运维大模型,使其能够构建出类似于运维专家的排障树思维,通过 Agent 规划运维步骤,并调用相关工具。
- ️多智能体交互框架 :设计多智能体的交互框架,使不同智能体能够协作完成复杂的运维任务。包括智能体语料样本准备策略、模型训练方案、运维流程数据范式定义、语料处理流程(格式校验、内容校验、Prompt 填充、样本转换)以及智能体增强训练等环节。
- ️智能体通讯交互设计 :构建复杂多智能体的通讯和交互组件,细分不同智能体的角色与能力,设计具体的通讯和交互模式类型与内容,如一对多广播、多对多讨论等协作模式,确保信息传递的稳定性和准确性,提高整体智能水平。
尽管大模型在运维场景中的应用前景广阔,但目前仍面临一些挑战,如模型推理效率、准确性、幻觉问题、长上下文处理、复杂问题的全局多源信息综合等。此外,融合大模型的整体系统架构设计、软件层面的能力提升(如并发、容错、上下文超限处理)以及以终为始的产品思维等方面也需要进一步完善。
然而,随着技术的不断进步和创新,大模型 DeepSeek 必将在运维领域发挥越来越重要的作用。它将与企业现有的运维体系深度融合,逐步实现从 L1 到 L5 的智能运维进化,提升运维效率、降低运维成本、增强系统稳定性,为企业数字化转型提供坚实保障。让我们共同期待大模型在运维领域创造出更多奇迹,开启智能运维的新篇章!
以下为方案部分截图: