在人工智能时代,我们不断强调数据的重要性——存储数据、传播数据、保护数据。作为数据专家,我们深知糟糕的数据管理会导致人工智能应用失当,而这最终将直接影响业务成果。
那么当数据管理出现问题,或IT中断威胁到对业务成功至关重要的数据时,该如何应对?面对这些挑战,人们总容易陷入“技术万 能论”的误区,以为先进技术能包治百病。然而在AI时代,完善的IT功能与数据管理需要更多支撑——它需要以运营韧性为核心的战略、框架乃至思维模式。
解读运营韧性
一项针对600名IT领导者和专业人士的最新研究将运营韧性定义为“识别、预判并缓解风险的能力,既能预防未来问题,又能加速应对突发中断。其实现路径在于理解业务各环节如何在团队、工作流和工具间协同运作,同时培育主动学习与适应的文化。”
几乎所有受访IT领导者(90%)都认为其IT职能具备“韧性”。然而IT团队负责人和数据库管理员(DBA)深知,某些核心职能对业务成功至关重要。当被问及对这些职能的信心时,认可度骤降至90%以下。例如仅38%的IT领导者对支持企业应用人工智能充满信心。不足半数(45%)认为能支持分布式办公模式,略超半数(52%)对应对网络威胁表现出信心。
这些数据揭示了运营韧性的迫切需求。若无法有效管理人工智能应用、应对网络威胁及支持分布式办公,将引发生产力问题。更重要的是,这可能危及企业运营所需的数据与系统,导致破坏性系统中断。系统停机可能引发客户不满,进而损害品牌形象并造成收入损失。
工具、团队与工作流程
如前所述,IT团队遭遇问题时往往倾向于寻求技术解决方案以简化流程。虽然合适的工具对所有IT职能至关重要,但孤岛式技术反而可能制造更多问题。调查显示,更多IT领导者认为工作流程和团队比工具更关乎运营韧性。例如,51%的受访者表示流程阻碍了他们快速响应IT中断,36%指出团队配置不足导致韧性不足,而仅13%将工具视为运营韧性的障碍。
构建当今IT团队所需的韧性,需在工具、团队与工作流程三者交汇处发力。当三者协同运作时,便能更有效地防范因用户失误、网络安全事件及系统停机引发的中断。要实现这三要素的恰当衔接,首要之务是剖析人与技术之间的关联性。
铺就运营韧性的道路
要准确分析人与技术之间的关系,团队首先应确保对IT环境有全面的了解。绘制一张映射图,展示系统内每项数据、IT资产和登录凭证之间的关联,一套全面的可观测性工具可帮助突出这些关键IT功能之间的关系。
绘制完IT资产图谱后,需审视组织架构图以厘清团队成员间的关联:明确协作关系、汇报层级及团队规模。
在厘清工具与团队的关联后,即可着手识别有效流程与低效流程。最有效的方法是通过正式或非正式的团队成员调研——作为最接近人员与技术的群体,他们最能精准指出各团队及工具的改进空间。
问题定位后,便是解决之时。人员问题的处理可能涉及从工作风格的简单讨论到特定团队的重组决策。也可能存在团队协作良好但缺乏合适技术工具的情况。若属此类,则需针对不同工具制定详尽的提案,既要赢得管理层认同,又要与业务目标紧密关联。
成效评估
在实施提升IT职能运营韧性的措施后,必须衡量改进成效。对科技行业从业者而言,MTTx指标(即平均检测时间、平均响应时间及平均解决时间)是评估事件管理与响应速度提升的有效工具。若因故出现IT事件激增且处理周期延长,IT领导者需重新审视方案缺陷。若以运营韧性为目标,IT领导者不仅要缩短平均解决时间,更要降低可能损害数据、资产及整体IT系统的事件发生率。
By Kevin Kline

