数据库 频道

AI规模化应用,必须释放非结构化数据的价值

听说过非结构化数据的人请举手,现在,真正理解其价值与力量的人请举手。若让我打赌,我敢说后者举手的人数远少于前者。这个令人警醒的事实尤其耐人寻味:非结构化数据并非新生事物,却在2025年成为技术领袖和CTO们的热门议题。

让我们回顾这一趋势的演变历程,并探讨企业CTO如何在构建全组织非结构化数据治理的坚实基础后,实现AI规模化应用。

非结构化数据价值回顾:2019年 vs 2023年 vs 2025年

2019年德勤深度报告显示,仅18%的企业能有效利用非结构化数据。考虑到80%-90%的数据属于非结构化类型(如文本、视频、音频及社交媒体内容),这凸显出企业当时(在某种程度上至今仍)存在着未被开发的资源宝库,却不知如何加以利用。

德勤报告还揭示了其他值得关注的发现:64%的企业表示主要依赖内部资源/系统的结构化数据。另一方面,同一报告显示,认为非结构化数据是最有价值洞察来源的高管,其业务目标超额完成概率高出24%。随着人工智能成为商业战略核心,能够识别并激活非结构化数据的企业将超越同行。

然而,要在企业内部成功实施举措并超越业务目标,必须先解决内部存在的挑战。2023年IDC报告显示,超过半数企业领导者表示非结构化数据大多处于孤岛状态,实际在员工或系统间共享的信息不足半数。更值得关注的是,五分之二的企业领导者坦言,公司存储的大部分数据仅使用一次后便被闲置。

过去两年间,我们见证了大型语言模型(LLMs)的飞速发展。随着这些模型日益强大且趋于商品化,企业真正的竞争优势将取决于其有效利用内部数据的能力。非结构化内容构成了现代人工智能系统的基石,因此企业必须构建强大的非结构化数据基础设施,方能在人工智能驱动的时代取得成功。

所谓非结构化数据基础,是指企业具备以下能力:快速识别组织内存在的非结构化数据,评估其质量、敏感度与安全性,通过数据增强与语境化处理提升AI性能,最终构建可大规模生成并维护高质量数据产品的受控体系。

到2025年,非结构化数据的质量与数量同等重要。在非结构化数据领域,“质量”仍是一片未被充分探索的疆域。企业需要明确的评估框架来衡量相关性、时效性和重复性等维度。过去六年间,非结构化数据的体量与多样性,以及生成或依赖这类数据的人工智能应用数量,均呈现爆发式增长。许多人将其称为企业内部最大且最具价值的数据来源, 尤其当人工智能日益成为企业运营核心时,我对此深表认同。原因如下:

面向人工智能的高质量非结构化数据:2025年及未来企业不容有失的关键

当劣质数据流入AI模型,将引发全新问题:重复项、不准确信息、过时数据及幻觉现象,这些都将动摇系统的可靠性、可信度和整体信心。

解决之道存在多种路径——其中之一是防患于未然。但在当今数字优先的世界里,企业应将精力聚焦于此:

  1. 以质量为起点:若内容存在不一致、过时或充斥噪音,AI同样会陷入混乱。这意味着洞察不可靠、决策失误、客户体验大打折扣。干净优质的内容是不可妥协的底线。

  2. 赋予语境:非结构化数据唯有与业务关联才具价值。合同对法务部门的意义与采购部门截然不同,支持工单或客户评价也是一样,都需要结合语境来理解。若无法理解内容背后的主体、内容及动因,AI便无法有效运作。

  3. 自动化关键环节:释放专家价值,非结构化数据唯有通过正确语境化(通常需添加业务元数据)方能体现价值。然而当前许多企业仍过度依赖领域专家手动标注文档和定义分类体系,这种方式效率低下、成本高昂且根本无法规模化。要充分释放非结构化内容在AI和搜索中的价值,企业需拥抱生成式AI原生自动化——加速元数据丰富化进程,同时让专家投入聚焦于关键环节。

  4. 当下即刻治理:数据治理刻不容缓,若放任非结构化内容失控,将为AI幻觉、合规漏洞和安全风险敞开大门。最具前瞻性的企业已将数据治理体系扩展至文件、文档、录音等多元载体。

核心要义:非结构化数据蕴藏巨大潜力,但前提是具备治理能力。在当今AI时代,忽视它不仅意味着错失机遇,更是竞争风险。

作者Felix Van de Maele是数据智能公司Collibra的联合创始人兼首席执行官。

0
相关文章