数据库 频道

数据团队的实际应用之道:实时数据为何成为默认选择?

  直至近期,还有人说,多数企业仍将实时数据视为仅在绝对必要时才使用的选项,其地位始终处于企业架构的边缘地带。然而这种局面已然改变,实时数据与分析已成为企业现代化进程及数据基础设施公告的核心议题。

  去年Confluent与Databricks联手弥合人工智能的数据鸿沟,双方合作聚焦于构建面向AI数据管道的动态数据层。另一方面,Snowflake与Ataccama也携手打造企业AI实时数据信任体系。

  实时性在科学AI领域同样占据核心地位。研究人员不再依赖事后批量分析,而是倾向于对数据进行即时处理。布鲁克海文国家实验室(Brookhaven National Laboratory,BNL)在数据量激增时将人工智能嵌入物理数据流;伯克利实验室则将探测器与超级计算机连接,实现核物理实时分析。

  无论企业应用还是科学研究,其核心逻辑类似,无论决策者是人类、软件还是AI系统,数据正日益贴近决策发生的时间节点。

  实时技术为何从边缘案例跃升为默认标准?

  要理解这一转变,需要回溯历史。当实时技术被视为边缘案例时,其本质是什么?历史上“实时”仅在绝对必要时启用。其应用场景多与报告生成相关,而非即时行动。

  因此核心目标在于理解而非响应。当时认为实时处理风险较高,因为难以确保数据完整可靠。一旦出现问题,实时调试过程极其痛苦。这套系统可能出现延迟或故障。多数企业仅将实时处理应用于高风险场景,如欺诈检测或网络监控。

  如今形势已然改变,关键原因在于云平台和托管流式服务消除了大部分运营负担,减轻了实时处理的风险感。尽管成本仍是主要顾虑,但将创意转化为可运行的生产管道已变得非常简便(且更具可预测性),企业系统无需等待下次计划运行即可获取所需数据。

  另一关键变化是人工智能与自动化技术的结合,使数据更贴近执行环节。通过将模型直接嵌入工作流,企业如今能获取实时更新的数据,同时也能暴露此前隐藏在报告和仪表盘背后的延迟问题。

  当AI系统处理劣质或过期数据时,其输出质量必然受损,进而导致错误的商业决策。如今现代应用程序能从客户行为、系统遥测等多源持续生成事件流,市场已从周期性快照转向实时数据的连续信号采集,这正是实时技术从边缘案例跃升为核心架构的根本原因。

  值得注意的是,实时化成为默认模式并不意味着每个系统都需要毫秒级更新或持续流式传输,但确实意味着团队在决策时越来越理所当然地认为应获取最新状态。

  企业如何应用实时技术

  当前多数企业将实时技术作为执行层使用,其功能已超越单纯的报告层。这意味着数据首先被系统和工作流利用,随后可根据需要汇总至仪表盘或报告中。如今许多系统都设计为能直接通过实时流采取行动——例如应用程序可在事件持续发生时即时调整系统行为或更新推荐内容。

  在多数环境中,实时数据用于维持持续更新的系统状态。这可能涉及会话上下文、库存水平、风险评分或系统健康指标——任何能辅助应用程序决策的数据类型。

  真正改变的是团队围绕这种状态的设计方式。数据团队不再构建纯粹为分析提供数据的管道,而是构建默认要求状态保持新鲜的系统。这影响着服务通信方式、故障处理机制以及工作流架构。实时数据常被用于控制操作、强制约束或防止系统在条件变化时出现同步偏差。随着时间推移,分析的作用逐渐向下游转移。洞察力依然重要,但它更多是跟随执行而非引领执行。

  科学数据管道中的同类变革

  企业之外同样发生着类似转变。科研领域面临的海量数据高速涌入,同样冲击着传统批处理工作流。“先存储再分析”的模式已难以为继。实时处理常用于过滤、标记或排序新数据,仅将最相关信号推送至下游。这既缓解了存储压力,又避免了对低价值或错误数据的计算浪费。

  借助实时反馈,研究人员还能根据需要调整实验方案。例如在检测到异常数据后修改参数或实验条件,甚至为验证不同假设而动态调整设置。

  许多机构通过将仪器探测器直接连接至高性能计算资源实现这一目标。计算过程与数据采集同步进行,无需先收集数据再进行后期分析。这意味着无需等待单独的后处理阶段启动,实验进行中即可实时查看结果。

  在生命科学和影像密集型研究领域,实时分析正被用于对传入数据进行分级处理:决定哪些数据需要保留、哪些可压缩、哪些可立即丢弃,从而管理存储和计算资源的限制。

  随着实时分析日益普及,会带来全新挑战,可靠性是最大难题之一。由于实时系统持续运行,可能缺乏足够监督来发现问题,即使微小漏洞也可能迅速恶化。此外,实时系统的本质还意味着高成本,任何数据或流量的激增都会增加基础设施支出,这绝非企业所愿,尤其当他们本就担忧人工智能项目的投资回报率时,就会更有顾虑。

0
相关文章