数据库 频道

数据引力问题卷土重来,AI使其雪上加霜

  数据引力从未真正消失,因此说它卷土重来或许不够准确。但它确实曾一度沉寂。传统数据分析工作负载的容错性足够高,使得这个问题不会造成灾难性后果,仪表盘加载稍慢,或报告需要运行整夜,都不足为奇。系统虽未达最高效状态,但仍能持续运转。

  而人工智能工作负载彻底改变了这一局面,它们容错性极低。大型AI系统需要持续访问海量数据,甚至需要跨环境跨区域调用数据。当数据远离计算节点时,成本激增且性能崩溃,这些问题难以掩盖。人工智能并未创造新的基础设施问题,而是暴露了早已存在的问题。因此可以说,数据引力问题已卷土重来。

  云时代曾以为数据引力问题已解决

  数据引力描述了数据随增长而累积的重量效应。我们知道,大型数据集在跨系统传输时成本高昂且难以管理。正因如此,应用程序往往迁移至数据所在处,而非反之。这就是数据引力。

  云分析兴起之际,这一限制曾淡出视野。集中式数据湖、批处理和夜间作业使数据迁移成本更易消化,报告延迟或刷新滞后鲜少导致系统崩溃,尽管经济因素依然重要,但其痛感不足以迫使架构变革。

  人工智能工作负载消除了这种缓冲,如今缓冲空间已然缩减。当模型需要持续获取新鲜数据时,引力开始塑造现实世界中AI应用的成败。

  我们在此前的报道中,曾探讨过数据引力相关挑战的应对思路。但自 2023 年以来,行业格局已发生诸多变化:一方面,人工智能技术愈发成熟,并深度融入企业业务流程;同时,数据规模与处理强度也显著提升。正是这些转变,让我们更能理解:为何 AI 让数据引力问题变得愈发难以忽视。

  人工智能究竟如何加剧数据引力?

  本质上,人工智能改变了系统使用数据的方式,这是核心变革。它还增加了数据被触发的频率,这意味着数据不再是一次性提取后静置,而是被反复调用。某些场景下,数据甚至需要在多个系统间持续同步访问,这种压力是传统工作负载从未有过的。

  人工智能还改变了人们对数据时效性的预期。模型依赖最新信号,甚至可称为实时信号。过期输入会迅速降低准确性,迫使数据更频繁地移动并靠近模型运行位置。曾经微不足道的延迟如今已影响结果。

  协调机制同样发生了变化。AI管道极少集中部署:训练可能在某环境运行,推理可能在另一环境执行,评估与再训练又常分头进行。每个环节都依赖跨系统共享的数据,这种依赖性迫使数据在系统间流动,即便团队试图固定数据位置也难以避免数据的流动。

  需要注意AI系统本身也会产生数据。诸如预测结果、日志记录、用户反馈及修正数据等,均会转化为新输入源,而其产生的输出结果也不会消失,反而会持续影响后续运行。随着时间推移,这种循环形成难以解开的多层依赖关系。

  数据引力问题并非源于单一任务,而是由重复操作及其累积效应引发。AI系统不断调用相同数据集,这种循环往复的操作使数据引力愈发沉重。

  企业正感受到数据引力的沉重负担

  对企业而言,数据引力已超越单纯的基础设施限制范畴,如今已成为业务运营的重大风险。企业正深刻体会到在人工智能规模下迁移数据的挑战性——这不仅影响性能表现,更危及系统可靠性与成本控制。

  部分企业通过跨云跨区域复制数据集来应对,使模型能在靠近计算资源的位置运行。然而此举导致存储占用扩大,网络变更不断累积,战术性优化最终演变为永久性开销。随着AI迫使数据持续复制迁移,企业的云支出也可能随之攀升。

  数据引力同样会损害可靠性。分布式AI管道依赖冗长的服务链,却缺乏紧密协同机制。单一系统的延迟可能引发下游工作流的连锁反应。

  例如企业预测模型需整合库存、定价、客户交易等多源数据。当任一数据源延迟,整个管道便陷入停滞。训练任务需要重新排期,推理运行时又基于过期输入,最终导致预测模型失准——这正是多数企业无法承受的后果。团队常通过引入变通方案和缓冲机制来快速绕过这些挑战,却使本已超负荷的系统更趋复杂脆弱。

  数据治理同样举步维艰,难以跟上发展步伐。数据如今分散在多个平台,政策必须同时在所有平台强制执行。访问控制需根据每个环境单独管理。随着数据所有权日益分散,审计工作变得愈发困难。由于数据来自不同云平台和区域,不存在单一的权威数据源。

  这些挑战直接体现在交付速度上。数据团队耗费更多时间管理数据迁移而非优化模型。AI与ML团队逐渐沦为基础设施运维者,产品团队则因等待数据管道而无法专注于测试新理念。企业正如此深切感受到数据引力的沉重负担,且形势不会好转。

  向数据就近计算架构转型

  我们已阐明AI时代企业面临的数据引力挑战。如今众多组织正重新审视其策略。他们能采取哪些对策?

  多数企业正尝试改变负载执行的位置,与其跨平台拉取海量数据集,不如将计算能力推近数据存储地——这与将数据移近计算节点截然不同。

  存储本身并非瓶颈,数据迁移才是。随着AI工作负载的规模和访问频率双双攀升,这一问题愈发凸显。每次数据传输都增加运营风险与成本。集中化管道并非可持续方案,它会削弱系统韧性并形成单点故障风险。

  更有效的思路是聚焦执行环节。相比企业级数据,计算更轻量化、也更易部署。相关团队正在重新设计流水线,让模型直接在数据所在的位置运行。训练与推理正越来越多地在湖仓(lakehouse)与数仓环境中完成。部分企业部署区域性推理节点,让请求在本地处理;还有企业将轻量化模型推向更靠近边缘的位置,以降低延迟。

  这种方法既保持数据集原位存储,又允许AI工作负载自由迁移。它缩短了数据流路径,减少了不必要的传输,同时赋予团队更强的性能控制权,模型可根据数据源与用户位置的邻近性进行部署。

  成功应对数据引力的企业正采用联合访问层,使应用程序能在分布式数据集间协同工作,无需强制全面整合。分析引擎现支持原位模型执行,免去了为预测而导出海量数据的需求。工作负载不再依赖单一集中式管道,而是根据实际需求分布于不同区域。

  在平台层面,分析、存储与人工智能正逐步融合。基础设施栈正日益集成化,这使得模型能更便捷地直接部署于数据环境中,同时减少系统间交接环节并简化运维流程。

  克服数据引力需要向数据中心化架构转型。模型将适应数据所在位置而非反之,局部性成为系统设计的核心要素。对众多企业而言,这种模式正成为扩展人工智能规模的同时保持系统响应性与可管理性的标准路径。

  作者Ali Azhar

0
相关文章