“数据令人疲惫。数据令人恐惧。” 2025 年 Gartner 数据和分析峰会由 Carlie Idoine 和 Gareth Herschel 发表主旨演讲,主题演讲以这些信息拉开帷幕。《时代》杂志下个月它就 60 岁了,它认为计算机将自动完成大多数任务,只有 2% 的人类将从事劳动,让我们有足够的时间从事休闲活动。
显然,对数据的信任是一个关键因素。谁知道呢?“信任你的数据”在我的建议清单中与“呼吸空气”并列。抛开所有幽默不谈,现实是,建立和维护数据信任是一项复杂且多方面的挑战。
Gartner 数据与分析峰会 2025 深入剖析了行业现状和未来发展方向。通过此次峰会探讨了几个关键主题,下面我们进行探讨:
1. 数据治理
尽管人工智能被大肆炒作,但数据治理的重要性依然持久,并且强调元数据管理。
2. 数据实践
真正的差异化因素仍然是可靠的数据实践——转换、质量、DataOps 和安全性——以构建在当今竞争环境中推动价值的数据产品。
3. AI代理和AI治理:
断开连接突出了将AI集成到现有业务流程和实际应用中的挑战。
一 数据治理再次成为焦点
我原本以为人工智能会成为这场会议的主要话题,但结果却是老式的数据治理。有些东西永远不会过时!
元数据在数据治理中始终占据重要地位,这又一次推动了“复兴”叙事的迭代。长期以来备受青睐的术语“主动元数据”在我看来是多余的。从根本上讲,元数据就是元数据,与任何可察觉的“活动”无关。在我看来,“主动”应该是动词,而不是形容词。成功的组织比其他组织更懂得如何“激活”他们的元数据。
数据目录仍然永远停留在“它是一个类别还是只是一个功能?”的尴尬阶段,是的,它们对于元数据管理仍然至关重要。它们没有存在危机,只是身份危机。由于总可寻址市场 (TAM) 有限,供应商正在多元化,扩展到数据质量和保护等领域。他们也越来越多地纳入代理。
就提供建议而言,安全地访问数据就如同呼吸空气一样重要。然而,尽管存在这一基本事实,数据访问治理供应商仍难以获得广泛的关注。组织在应对不断扩展的系统时,面临着始终如一地应用和执行数据访问治理政策的艰巨挑战。这种实施差距将数据安全推到了最前沿,尤其是在金融服务领域。
尽管审查力度不断加大,但只有不到 10% 的银行符合BCBS 239 监管标准;这一点进一步凸显了这一紧迫性。继推出用于云成本和治理自动化的 Slingshot 之后,Capital One Software 的战略举措解决了敏感数据标记化问题,进一步凸显了对强大安全解决方案日益增长的需求。同时,数据沿袭(通常被重新定义为业务透明度)再次成为一个关键问题,反映了对全面数据可见性和控制的需求。
二 数据质量和可观察性回归
经过多年相对沉寂之后,数据可观测性供应商在峰会上表现不俗。我衡量一个类别活力的标准是用户反馈,数据可观测性引起了强烈反响。与我对整合的预期相反,此次活动显示出新进入者的惊人激增,这与数据目录市场的持续扩张相呼应。
一个关键的洞察浮现出来:强调强大数据质量能力的数据可观测性供应商正在获得显著的关注。虽然管道可观测性最初是至关重要的,这是由早期技术的调试挑战所驱动的,但现在人工智能已成为优先考虑数据质量的催化剂。
我曾预计,数据可观测性在市场规模上将超过基础设施可观测性。这是因为数据是组织的命脉,而基础设施通常由云提供商管理,这减少了组织直接监控数据的需求。然而,出于我不知道的原因,这种情况还没有发生。虽然像 Datadog 这样的基础设施可观测性巨头拥有数十亿美元的收入,但数据可观测性市场仍然相对较小。
FinOps 和成本控制也成为突出的用例,进一步凸显了数据可观察性的不断发展的作用。
三 数据转换、DataOps 和数据产品仍然至关重要
数据产品已从一个新兴概念转变为广泛接受的商业需求,成为使数据更易于使用和可用于数据驱动决策的关键工具。这些数据产品的成功交付在很大程度上依赖于强大的数据转换和集成技术,而这些技术又由 DataOps 促进和自动化。
DBT 的缺席引发了广泛讨论,该公司目前宣称 ARR 超过 1 亿美元,增长率达到 50%。这种缺席,加上他们被排除在数据集成魔力象限之外,引发了人们对其市场定位的疑问。值得注意的是,我遇到了几家准备挑战 dbt 主导地位的数据转换供应商,这表明这个快速发展的领域可能会出现颠覆。
Prophecy 是数据转换辅助解决方案领域的领导者,它主持了一场引人注目的小组讨论,主题是“GenAI 对数据团队的影响”,由 CDO 杂志主办。我很荣幸能与来自丰田汽车公司和加拿大皇家银行的杰出小组成员同台。Prophecy 的平台具有独特的低代码/无代码界面,可以与完整代码动态交互,从而加速数据产品的开发和部署,满足各种用户的需求。
四 人工智能退居次要地位
如果你来参加这次会议是为了了解前沿的LLM和AI代理,那么你肯定会感到失望。这就像去听萨布丽娜·卡彭特的演唱会,却发现特蕾西·查普曼在舞台上。别误会我的意思:特蕾西很棒,但你穿上闪亮的衣服可能不是为她。
尽管人工智能应用开发的热情不可否认,但一个关键的差距仍然存在:人工智能治理并未同步发展。在与最终用户的对话中,这个概念常常引起一片茫然,表明创新与监督之间存在着巨大的脱节。令人惊讶的是,许多消费者反其道而行之,向我询问人工智能治理问题,而不是回答我的问题。
供应商正试图通过扩展现有的数据治理框架来弥合这一鸿沟,但人工智能治理的确切范围和要求仍然模糊不清。也许缺乏广泛的、关键任务人工智能部署使我们免受这种治理真空的影响。然而,随着人工智能渗透到核心业务运营中,这种疏忽将变得不可或缺,有可能从潜在的担忧转变为关键的瓶颈。
虽然人工智能代理是供应商演示中的一大亮点,但最终用户对它们的实际应用和理解仍然难以捉摸,而且常常一无所知。这种脱节凸显了一个关键事实:在快速商品化的人工智能领域,数据仍然是主要的区别因素。因此,峰会将重点放在数据上,而不是仅仅放在人工智能上,这是有先见之明的。
随着 RLHF 等尖端模型和技术的普及,人工智能的发展速度加快,这要求我们转向利用独特的数据资产。人们普遍担心人工智能对工作岗位的影响,这是可以理解的。虽然工作转型不可避免,但我相信人工智能最初将作为一种强大的自动化工具,让我们能够专注于更高层次的战略和创造性工作。
五 现代数据架构的演变
尽管超大规模企业和主要数据库公司表现强劲,但 NoSQL 的参与度却很低,而且独立的矢量数据库更是无处可寻。这种缺席凸显了人们对矢量数据库作为独立类别的疑虑,尤其是传统供应商迅速将矢量功能添加到其现有平台的情况下。
Lakehouse 也成为主流的分析存储解决方案。我观察到的一个关键趋势是,各种供应商类别(包括数据可观察性、数据转换、分析引擎和目录)加速采用开放表格式(例如 Apache Iceberg 和 Delta Lake)。这一举措使一些供应商(之前与特定生态系统绑定)能够实现更大的多功能性和独立性。
图形数据库供应商在展厅中保持着存在,突出了直观图形数据模型的持续吸引力。然而,我继续观察到模型固有的优雅性与其在最终用户中的广泛采用之间存在差距。虽然存在引人注目的案例研究,但它们通常代表的是小众应用,而不是企业范围的部署。我预计,使用 graphRAG 来提高 GenAI 准确性的新兴用途可能会成为催化剂,弥合这一差距并推动更广泛的采用。
结论
数据并不可怕,它令人兴奋。我们这些数据工作者,通过更加了解我们所服务的企业,将更好地服务于我们的事业。业务和 IT 实力与对数据的深入了解相结合,是我们在快速变化的世界中生存所需的唯一“护城河”。
总而言之,2025 年 Gartner 数据和分析峰会揭示了这样一个前景:即使在人工智能快速发展的情况下,数据治理和质量的持久基础也至关重要。虽然人工智能的潜力仍然巨大,但其成功整合取决于强大的数据实践和对其实际应用的清晰理解。峰会最终强调,数据的未来不在于转瞬即逝的炒作,而在于既定原则与新兴技术的战略融合。