GenAI 革命提高了人们对企业能够利用数据的期望,但它也暴露了企业在如何管理数据方面的一些严重缺陷。在此背景下,我们将深入探讨2025年的大数据管理预测。
获取数据一直是分析和AI面临的挑战。Alluxio公司创始人兼首席执行官李浩源预测说,2025年,企业实现数据访问的水平将决定其人工智能的成败。
“2025年,随着人工智能工作负载的要求越来越高、分布越来越广,企业在解决数据访问难题方面将面临越来越大的压力。”李浩源写道,“跨多个云、地区和存储系统的数据爆炸式增长已经在数据可用性和迁移方面造成了巨大瓶颈,对于计算密集型的人工智能训练来说尤其如此。企业需要有效管理分布式环境中的数据访问,同时尽量减少数据移动和重复。人们将更加关注那些能够在不考虑数据所处位置的情况下提供快速、并发的数据访问,同时又能保持数据局部性以保障性能的技术。”
数据档案通常被视为保存着不那么有趣的信息。NoSQL 数据库制造商 Aerospike 的技术顾问 Lenley Hensarling 预测,随着 2025 年人工智能革命的到来,这些历史数据将找到新的用途。
“生成式AI依赖于广泛的结构化、非结构化、内部和外部数据。它的潜力依赖于一个强大的数据生态系统,该系统支持训练、微调和检索增强生成(RAG),”Hensarling 说。“对于特定行业的模型,企业必须长期保留大量数据。随着世界的变化,相关数据只有在事后才能显现出来,从而进行揭示。通过保留历史数据并将其与实时洞察力相结合,企业可以将人工智能从实验工具转变为战略资产,从而推动整个组织实现有形价值。”
当企业耗尽了容易获得的训练数据时,他们通常会寻求合成数据来不断改进模型。SAS 高级分析高级总监 Susan Haller 表示,2025 年,合成数据的使用将成为主流。
“随着越来越多的企业发现合成数据的巨大潜力,这些数据在统计上与真实世界的数据一致,而无须借助人工收集或购买第三方数据,人们对这项技术的看法将有所变化。”Haller说,“从医疗保健到制造业,各行各业都能更方便地获取合成数据,这将被证明是一项重大的战略优势。未来利用这类数据的可能性是无限的。”
GPU 是人工智能工作负载的首选加速器。Hammerspace 全球营销高级副总裁Molly Presley表示,2025 年,掌握 GPU 数据协调技术的企业将拥有巨大优势。
“进入2025年,人工智能和机器学习(ML)架构面临的挑战之一仍然是如何在GPU(尤其是远程GPU)之间高效地移动数据。”Presley说,“传统的数据编排解决方案虽然很有价值,但越来越无法满足 GPU 加速计算的需求。瓶颈不仅在于管理数据流,更在于优化向 GPU(通常是远程位置)的数据传输,以支持高性能计算(HPC)和先进的人工智能模型。因此,围绕以 GPU 为核心的数据编排解决方案的创新将在业界激增。这些新系统将最大限度地减少延迟、最大限度地提高带宽,并确保数据能够在本地和远程 GPU 之间无缝移动。”
Confluent 公司技术战略部首席技术专家 Adam Bellemare 表示,企业将尝试在工作流程中尽快解决数据管理问题,而不是在下游系统出现问题时才去解决。
“企业将采用‘左移’的方法来提高数据质量、降低成本并消除冗余处理。”Bellemare 说,“企业将专注于在数据管道的早期处理工作负载,使数据在进入数据湖或云数据仓库之前就得到清理、标准化和处理。这种转变将使数据与其存储进一步分离,从而可以更灵活地跨平台处理和利用数据,包括用于人工智能训练和实时推理。企业不仅可以通过防止冗余处理来降低成本,还可以实现更加灵活、可互操作的架构,在这种架构下,数据可以进入多个下游系统,而不会出现过多的重复。”
2024 年是开放表格格式大力发展的一年。开源编排平台开发商 Kestra 的首席执行官兼联合创始人 Emmanuel Darras 说,2025 年,Apache Iceberg 和 Delta Lake 等格式的发展势头将继续加强。
“Iceberg 提供了一种标准化的表格式,并将其与 Spark、DuckDB、Trino 和 Dremio 等 SQL 引擎以及 Snowflake 和 Databricks 等数据平台集成,使 SQL 查询能够在数据湖和数据仓库上高效运行。”Darras 说,“依靠开放表格式,企业可以管理和查询大型数据集,而无须完全依赖传统数据仓库。随着企业计划采用 Iceberg 而不是 Delta Lake 等其他格式,其在大数据管理中的作用有望扩大,这要归功于它对供应商无关的数据访问模式、模式演进和互操作性的高度重视。”
2024 年数据管理领域的另一件大事是技术元数据目录的出现,如 Apache Polaris 和 Unity Catalog。Dremio 公司高级技术布道者Alex Merced预测,2025 年,技术元数据霸主之争将更加激烈。
“主导数据目录领域的竞争将成为一场高风险的对决。”Merced告诉BigDATAwire,“随着混合云和多云生态系统的发展,企业将要求无缝的互操作性,从而推动在治理、线性和用户定义功能(UDF)方面的创新。Apache Iceberg 将凭借其混合目录功能,重新定义开放表格式的标准,成为重要的参与者。这场竞赛不仅将重塑数据架构,还将决定谁将控制数据可移植性的未来。”
当数据增长曲线触及成本曲线的某一点时,会让首席财务官心急如焚。Arcitecta 首席执行官 Jason Lohrey 表示,2025 年,需要新的存储归档解决方案来为CFO排忧解难。
“随着数据量的增长,更高效、更具成本效益地归档存储解决方案变得至关重要,”Lohrey 说。“基于闪存和磁盘的存储方案虽然速度快,但在扩展到大容量时成本很高。这导致磁带存储作为满足现代需求的可行解决方案再次兴起,并引入了玻璃存储等新兴技术。公司将寻求把较小的单元聚合成较大的配置,将磁带的可扩展性与云标准的灵活性结合起来。随着现代数据管理需求的不断发展,人们对磁带和其他档案存储解决方案的兴趣将继续扩大。”
GPU 通常被视为 HPC、AI 和图形密集型工作负载的加速器(因此被称为图形处理单元)。但 NoSQL 数据库开发商 Couchbase 工程高级副总裁 Gopi Duddi 预测,GPU 加速数据库工作负载的潜力将在 2025 年变得更加明显。
“人工智能革命不仅改变了应用程序,还将从根本上颠覆数据库架构的核心。经过半个世纪基于 CPU 的数据库设计,GPU 提供的大规模并行性正在迫使人们重新思考数据库处理和管理数据的方式,”Duddi 说。“GPU驱动的数据库的潜力是惊人的:传统上需要基于CPU的复杂并行处理的操作,可以通过数千个GPU线程同时执行,从而为数据库操作提供类似于ChatGPT的性能。”
在过去几年中,PostgreSQL 一直是最流行的数据库。基于 PostgreSQL 的时间序列数据库 Timescale 的人工智能产品负责人 Avthar Sewrathan 说,不要指望这种趋势会很快结束。
“2025年,PostgreSQL将巩固其作为‘无所不能的数据库’的地位--它是第一个将嵌入等人工智能功能直接集成到其核心生态系统中的数据库。”Sewrathan写道,“这将简化数据工作流程,消除对外部处理工具的需求,使企业能够在一个地方管理复杂的数据类型。凭借其独特的扩展功能,PostgreSQL 正在引领未来的潮流,让企业不再依赖独立或专有的数据库。”
数据工程师、数据分析师和数据科学家之间的传统分工正在被打破,因为现代数据团队必须越来越快速、自主地处理端到端的工作流程。Promethium 公司首席执行官Prat Moghe说,2025 年,我们将看到一种新的角色出现:“数据英雄”。
“这些多才多艺的人将把扎实的技术技能与深厚的领域知识结合起来,使他们能够在数据发现、组装和产品创建方面无缝工作。”Moghe说,“作为数据和业务之间的重要桥梁,数据英雄们将在未来一年里推动更高的一致性、更快的洞察力和更具影响力的决策。然而,为了支持这一演变,必须出现新一代的数据工具,专门针对数据英雄角色的需求量身定制。与满足独立、脱节角色的传统工具不同,这些现代平台将统一功能并简化跨职能协作,使数据英雄能够在瞬息万变的环境中释放数据的真正价值。”
数据结构并不是一个新概念,但它也没有像许多大数据观察家预期的那样获得广泛关注。Aspen Technology产品营销经理 Dwaine Plauche 预测,随着企业寻求更好的管理方法来应对人工智能引发的大数据洪流,这种情况将在 2025 年开始改变。
“随着数据管理对工业企业来说变得越来越困难,特别是当他们优先考虑人工智能应用和数字化转型计划时,我们将转向 OT(运营)数据结构,以简化成千上万的 IT 和 OT 连接,并使数据在整个业务中更易于访问和操作。OT 数据结构能够摄取连接整个企业的人员、机械、工厂、物流和 IT 系统的各种数据,因此数据可以更轻松地扩展,以释放新商机(如人工智能)在未来的潜力。”