数据库 频道

深度解读:2025年企业智能运维建设的切入点

  【摘要】回看智能运维(AIOps)发展历程,曾被寄予厚望,但目前看实际效果并未达到预期。原因何在?本文从技术角度提出了智能运维存在的部分问题,通过分析智能运维的核心价值,提出了3个可以考虑重点建设的赋能场景,以及更多拓展方向,对于即将或正在进行智能运维建设的企业同行具有启发性和参考价值。

  【作者】彭华盛,10年+的金融领域运维工作,期间负责参与运维组织、流程、工具建设,包括重大业务系统与数据中心工程性项目实施,标准化工作流程构建,平台工具体系的规划与研发、数字化转型研究与实施相关等,对金融领域的运维有较全面理解。

  一、智能运维的发展背景

  2018年至2021年期间国内消费者市场红火,但不久后市场逐渐饱和,资本和企业的注意力开始转向对公领域。同时,美国涌现出大量对公市场成功案例(如Salesforce、ServiceNow等)也为国内提供了借鉴,加上企业数字化转型的需求爆发,推动了对公市场的快速发展。此外,政策层面对科技创新的支持以及云计算、大数据等技术的成熟,也为对公市场的繁荣提供了重要助力。在对公行业兴起时,智能运维(AIOps)一度成为投资界的宠儿。然而,随着经济下行压力的增加,投资回报率下降,对公企业开始从扩张策略转向生存策略。同时,用户也更加强调智能运维所带来的实际价值。在这一背景下,智能运维领域开始从高峰转变到低谷。

  回看AIOps发展历程,AIOps曾被寄予厚望,期望通过技术革新彻底改变运维模式,但目前看实际效果并未达到预期。从技术角度来看,我总结部分智能运维相关问题:

  1. 过度强调替代性:部分解决方案提供商过度宣传AI能够完全替代人工运维,但由于企业数据和算法质量的限制,这种期望往往转变为失望。AI应被视为提升效率和体验的工具,不能完全取代人工。

  2. 缺乏场景思维的平台导向:部分解决方案过于注重打造“平台”,而忽视了实际应用场景,导致技术与运维流程脱节,难以落地。

  3. 用户对AI的信任危机:运维领域对准确性要求极高,而AI算法的决策基于数据分析,关键时刻的判断失误严重损害用户信任。

  4. 算法与专家经验的脱节:现有解决方案鲜有能将AI算法与一线专家经验有效结合的案例,因此在实际应用中效果不佳。

  5. 数据变化与问题的区分:AIOps方案通常通过数据分析变化,但数据变化可能存在误报,减少噪点有效应对变化,仍需更进一步的深度设计。

  6. 成本与收益的平衡:数据类研发工作琐碎且成效难以量化,数据质量不足,影响上层场景的准确性。在市场下行和厂商过度追求短期利益的背景下,AIOps的投入减少,效益认可度不高。

  二、智能运维的核心价值

  近两年,尽管大模型取得了巨大的成功,企业普遍看到了大模型的潜力,但实际应用中,仍然面临一些显著挑战。比如数据质量和完整性问题,大模型的“黑箱”决策过程缺乏透明度和可解释性,复杂业务场景和规则下环境大模型适配难度高,以及训练和部署成本高昂短期收益低回报率太差,限制了其规模化应用。

  智能化技术在精确性要求较高的领域仍面临一定挑战。这类业务通常对结果的准确性、可靠性和实时性有较高要求,但单纯依赖数据和算法难以完全满足这些需求。算法的判断会受到数据质量、模型局限性以及现实业务复杂性的影响。因此,专家经验的介入在许多场景中仍然具有重要意义。例如,在智能运维的应急场景中,AIOps虽然能够通过算法快速定位问题,但在处理复杂故障时,基于特定规则和专家经验的判断往往能够提供更高的可靠性。

  在非精确性领域,智能化技术已经展现出显著的优势。这类业务更注重效率、用户体验和灵活性的提升,而非绝对的准确性。以网上银行系统为例,虽然其核心业务(如转账、支付等)未发生根本性改变,但智能化技术引入人脸识别、指纹识别、语音识别等功能,极大地简化了用户操作流程,提升了交互体验。同时,基于大数据的智能推荐系统能够根据用户行为提供个性化服务,进一步增强用户粘性。另外,大模型在自然语言处理、图像识别等非精确性场景中也表现出色,提供了更强大的数据处理能力。

  所以,我认为在运维领域智能化技术应作为平台能力打扎实,优先投入到能够赋能现有场景的领域,通过局部效率提升和体验优化创造价值,而非追求全面替代人工。以该思路发展,既能充分发挥智能化的优势特长,又能降低因精确性不足带来的风险影响,为未来的技术突破奠定坚实基础。利用智能技术辅助运维工作降本增效,而非完全替代现有工作场景。

  三、智能运维的建设方向

  从技术赋能角度,可以考虑重点建设以下3个技术的赋能场景:

  1.指标异常检测:通过算法(如统计学方法、机器学习或深度学习模型)对系统指标(如资源、流量、错误、性能等)进行实时监控和运行分析,建立正常行为的基线模型。当指标偏离基线时,算法识别出异常并发出告警。其主要应用于实时监控系统健康状态,快速发现性能瓶颈或潜在故障,评估系统容量,减少故障排查时间,提升系统稳定性。

  2.日志模式识别:利用机器学习技术(如聚类、分类或自然语言处理)对海量日志数据进行分析,提取日志中的关键特征和模式。通过训练模型识别正常日志与异常日志的模式差异,从而发现潜在问题或故障征兆。其主要应用于应用日志分析与数据质检场景,用于业务功能层面的故障预测、根因分析和性能优化,帮助运维团队提前发现潜在问题,减少系统运行风险。

  3.大模型运维(LLMOps):借助大模型强大数据处理和上下文理解能力,对复杂运维场景中的多源数据进行综合分析。同时,基于agent智能体的整合,能够生成决策建议、自动化处理任务,并提供更精准的故障定位和解决方案。其主要应用于运维知识管理、辅助问题决策、错误日志诊断、自动化运维决策支持等场景,提升运维效率和准确性,降低对人工经验的依赖。后续通过推动企业内部运维大模型,提供沉淀专家经验,并探索交互式agent智能体来持续提升大模型运维能力。

  四、智能运维的愿景目标

  随着这两年智能化技术的快速发展与智能运维应用场景的深化,智能运维有望取得突破。下一阶段智能运维需要吸取之前的教训,优先聚焦在运维场景的赋能,推动人机协同运维模式的构建。即从实际运维场景出发,设计针对性解决方案,确保技术与业务需求紧密结合。同时强化AI与运维专家的协作,充分发挥双方优势,提升运维效率和准确性。提升用户对AI工具的信任,推动智能运维的广泛应用。

  还应拓展智能化运维场景应用,例如:

  1. 风险挖掘场景

  可以利用智能运维主动挖掘系统运行风险,提前做好风险防范。以往场景中,风险发现主要依赖人工经验或监控告警等方式,难以识别复杂的潜在风险。并且,风险挖掘主要基于故障复盘后的事件驱动,有一定滞后性,缺乏主动预警能力。另外,部分组织也尝试基于专家规则利用固定阈值设置风险发现的策略,但是通过固定阈值的方式难以把控,要么产生误报,要么忽视潜在风险。。

  通过建立主动挖掘运行风险的常态化工作机制,借助机器学习建立动态基线,通过对比正常模式,识别潜在风险(如用户体验下降、性能衰退),有助于应对业务周期、市场活动、异常波动等风险挖掘的痛点。此外,应用日志反映系统用户及功能调用行为,识别应用日志,有助于发现首次出现、异常波动等应用层面的异常行为。

  2. 容量评估场景

  当前互联网环境复杂,市场波动、业务活动、网络攻击等频发,激增的业务调用大幅降低系统稳定性,建立常态化的容量评估场景可以确保系统稳定运行、优化资源配置、合理控制成本及预防未来需求激增。过往经验中,容量评估主要基于上线前的压力测试、容量折算、、人工经验等方式,主要依赖历史峰值数据,采用静态冗余策略,可能导致资源浪费或不足以应对突发流量。而且,人工分析周期长,受专家经验约束比较大,结果的论证过程相对黑盒,难以应对突发流量的复杂场景。

  通过建立系统关键的性能容量指标,基于时序分析预测资源需求,结合业务增长趋势实现容量管理的方案推荐,为系统的弹性伸缩提供技术基础。通过算法平衡性能与成本,避免过度配置。例如,针对企业非重要信息系统、备份灾备环境、夜间清算批次等类型的系统进行资源调度,实现更优化的资源容量管理。

  3. 故障应急场景

  故障应急一直都是智能运维重点聚焦的场景,故障应急场景要求时效性和准确度极高,给智能运维带来新的挑战。主要的切入点主要有:

  •   辅助分析日志:人工排查日志耗时耗力,尤其在分布式系统中,跨服务日志关联困难,通过日志聚类和异常检测,快速定位错误模式。

  •   关联上下文:结合大模型理解日志语义,关联拓扑关系,辅助定位根因。

  •   优化告警风暴:传统阈值告警产生大量重复或无关告警,影响运维人员判断,通过事件关联将多条告警合并为单一故障事件(如网络抖动触发多服务告警)。

  •   辅助判断影响:人工难以快速判断告警的紧急性和影响范围,基于业务影响黄金指标的异常检测,评估告警优先级。

  •   匹配应急预案:基于LLMOps、向量数据库等,辅助匹配对应的应急预案。

  •   调用实时数据:基于agent智能体实时调阅生产数据。

  4. 知识管理

  知识管理是当前大模型应用最广泛的场景之一,其可用性已得到广泛认可。在知识管理过程中,知识孤岛、投入成本大、知识保鲜滞后等问题一直阻碍着团队经验的沉淀。大模型提供了一个低成本且有效的知识管理解决方案。具体实践时,知识管理可以作为一个连接的能力,融入到其他运维场景中。例如:在故障管理中,大模型自动提取故障处理过程,通过告警识别、同类告警匹配、预案推荐等方式优化处理流程。将大模型加持的知识管理结合ChatOps的群空间和聊天机器人,通过降低用户使用大模型平台的门槛,可以进一步激发ChatOps的能力。基于Agent智能体实现实时数据分析与自动化操作,将进一步提升运维知识管理的能力。

  5.变更管理场景

  有效的变更管控能够提升研发效率,变更事故是生产事件的重要来源之一,全方位管控措施能降低变更风险。部分运维团队的工作安排是基于一系列软硬件生命周期的变更而开展。智能化技术可以考虑应用在以下变更管控工作中:

  •   可以通过智能技术挖掘发生变更的配置对象,以辅助风险的排除与出现故障时的问题定位。

  •   变更后的指标波动、日志的突增突减,是提前挖掘应用变更风险的切入点。

  •   首次出现的错误,也是风险挖掘的一部分,让团队更了解业务系统逻辑。

  •   进行事前变更影响分析,提供变更影响依赖关系,有助于在事前挖掘变更风险,在事后出现故障时更快的定位变更事项。

  6.其他场景

  另外,智能运维还有其他多种应用场景。例如:基于Agent平台的流程自动化、智能服务台、FinOps的低效资源挖掘、系统健康检测与巡检、安全管理、资源交付、自动化操作、指标异常检测、日志模式。

  五、结语

  以投入产出的价值出发作为智能运维的切入点,上文介绍的场景在一些企业中得到了比较明显的效果。当然,场景的价值需要源于实际工作中的痛点解决与期望,智能化赋能更多的运维场景中,还需要鼓励一线运维同事、二线专家和管理决策层共同参与。总而言之,传统运维技术的特点主要有静态、被动、依赖专家经验等,而智能运维则主要体现在动态适应、辅助决策、规模化处理、知识泛化等方面,智能运维并非简单替代人力,而是通过技术手段推动专家经验与机器融合,形成人机协同的智能化工作模式,共同提高运维场景的处理能力。

0