企业AI的采用正在加速,但许多组织正面临一个严酷的现实:AI的性能取决于其处理的数据质量。更具体地说,人工智能的性能取决于描述、筛选和管理这些数据的元数据。随着大型语言模型(LLMs)和其他生成式人工智能工具进入企业主流,元数据是成功利用人工智能处理非结构化数据的指南。
元数据为非结构化数据提供上下文,实现精准的数据整理。这很重要,因为将大量非结构化数据传输到每个人工智能流程可能非常耗时且成本高昂。
从被动标签到主动智能
历史上,系统元数据(例如文件大小、类型、所有者、创建日期和最后修改时间)被视为一组被动描述符。这些由存储系统自动生成的元数据帮助IT团队管理存储、保留和访问策略。但人工智能的兴起彻底重新定义了元数据的功能与必要性。
随着组织开始意识到通过数据标注丰富元数据的价值,元数据正成为核心智能层。这种丰富元数据包含上下文细节,如敏感度级别(例如个人身份信息)、部门相关性(即项目名称或ID)、地理位置、用户注释以及描述内容的人工智能生成的语义标签。若能妥善利用,这种丰富元数据将成为可信、成本效益高且符合合规要求的人工智能的基础。
元数据作为人工智能的守门人
当前企业人工智能面临的潜在风险之一是使用错误数据或专有数据构建人工智能数据管道。这可能包括将内部草稿输入公共聊天机器人、使用过时或重复数据训练模型,或使用包含员工、客户、财务或知识产权数据的敏感文件。此类风险的后果包括资源浪费到数据泄露及声誉受损。
针对非结构化数据的全面元数据管理策略可通过充当AI工作流的守门人来缓解这些风险。例如,若企业希望训练模型以在聊天机器人中回答客户问题,元数据可用于排除内部文件、非最终版本或标记为机密的文档。仅经过审核、标记且合适的内容会被传递用于嵌入和推理。
这比简单地将所有可用文件导入AI管道更为智能和细致。通过建立丰富的元数据体系,组织可根据业务需求、项目范围或风险等级对数据进行筛选、分类和分段。
元数据增强了AI推理中的向量标注。元数据管理系统帮助用户识别应输入AI工具的文件(如人力资源聊天机器人中的健康福利文档),而向量标注则提供每个文档的更详细内容信息。
超越ETL:迭代元数据驱动工作流的时代
传统数据准备依赖于批量执行的ETL(提取、转换、加载),且通常仅执行一次。ETL设计用于结构化数据(如表格和数据库)。但AI需要更灵活的方案,能够处理非结构化数据的庞大体量与多样性,并支持重复转换。
借助非结构化数据管理,企业现在可以自动化整个AI数据生命周期:
通过丰富的元数据查询发现相关文件;
将它们 提供给AI服务(如Nvidia NeMo、Azure AI);
捕获AI输出作为新元数据(如分类、摘要);
在数据不再需要时自动分层或删除数据。
例如,某大学图书馆部门希望从其数字档案中的数百万个文件中搜索并找到特定的图像。假设每个文件需要至少两分钟进行手动检查,他们估计完成全部审查并记录结果至少需要20,000分钟,即超过300小时。通过使用非结构化数据管理系统进行元数据标记和工作流程管理,并结合人工智能工具(AWS Rekognition)进行检查,团队仅用两小时多一点就完成了任务。
除了支持AI数据准备,高级元数据管理还能提供有价值的洞察,例如可移动到归档存储的冷数据比例,从而降低存储成本。将文件标记为敏感(即包含个人身份信息)并将其移动到安全存储或删除,是另一种策略,可降低安全和合规风险。
构建AI元数据堆栈
AI的兴起催生了一种新型架构:元数据堆栈。其核心包括:
智能非结构化数据管理:用于在混合环境中索引和丰富数十亿文件及对象的工具与流程。
工作流编排:将正确数据发送至正确AI工具(无论是本地部署还是云端)。
AI集成:通过API连接向量嵌入生成器、分类模型和语言模型。
治理与可观察性:追踪数据血统、访问记录和审计轨迹,以防止生成式AI带来的负面影响。
该元数据堆栈位于基础设施与AI之间,作为一个控制层,为通常由黑盒模型和不透明流程定义的领域带来透明度和可追溯性。
驱动实际业务价值
投资于元数据优化的企业正获得切实收益。高效丰富元数据的能力为非结构化数据注入结构,使其可用于新用途并为组织创造更大价值。具体包括:
通过仅向昂贵的GPU管道输入正确数据,将AI计算和存储成本降低高达80%;
通过元数据策略识别并隔离敏感文件,防止数据泄露;
通过在 PB 级别的存储库中展示丰富且经过整理的数据集,加速 AI 团队的数据发现过程。
在医疗、金融和教育等受监管行业,这些能力至关重要。这些领域的 AI 系统必须在严格的隐私和合规边界内运行,元数据正是实现这一目标的关键。
战略资产,而非副产品
元数据不再是技术副产品。它是战略业务资产。它决定了数据如何被发现和保护、数据流向何处以及如何被使用。在人工智能驱动的企业中,这意味着元数据控制着从决策质量到合规状态的方方面面。随着人工智能继续重塑企业IT,那些将元数据视为架构核心部分考虑的组织将获得竞争优势。
作者Krishna Subramanian是Komprise的首席运营官、总裁及联合创始人。