在各行各业,组织正深陷于非结构化数据的海洋中:文件、视频、图像、聊天记录、设计文档以及其他难以轻易归类的数字碎片。分析人士估计,非结构化数据占企业信息量的比例高达80%,然而大多数组织对其内容、归属或敏感程度知之甚少,失控的数据代价高昂、充满风险,并且阻碍了人工智能和分析领域的进展。
Komprise的最新研究凸显了这一差距。近60%的企业IT领导者将非结构化数据分类视为扩展人工智能规模的主要技术障碍。在业务方面,62%的人表示他们面临的首要非结构化数据挑战是降低来自人工智能的数据风险。这两种担忧都指向同一个根本问题:没有有效的数据分类,组织就无法安全或高效地利用其已有的数据。
数据分类,即根据内容、组织环境、敏感性或用途对数据进行标记、归类和标注的过程。听起来像是一项简单的行政任务。实际上,它是一项决定组织能否充分利用其最有价值数字资产的基础能力。对非结构化数据进行分类本质上更为困难,因为这些数据不易理解、组织混乱,且不像结构化数据那样具有内在的上下文关联。此外,根据Komprise的研究,如今大多数组织管理的非结构化数据量超过5PB,这很容易达到超过50亿个文件,这使得手动处理方式在规模上难以为继。
为何分类至关重要
从根本上说,分类弥合了IT控制与业务价值之间的鸿沟。对IT团队而言,它关乎数据管理、优化和保护。对业务领导者而言,它关乎信任、速度、人工智能投资回报率和洞察力。具体来说:
为人工智能和分析进行数据管理:人工智能模型的优劣取决于其训练数据。如果组织无法区分相关、高质量的数据与噪音,模型的准确性就会受到影响。非结构化数据的质量不仅仅关乎文件内容。其质量还受到“噪音”的严重影响,即那些冗余、无关、重复且常常相互冲突的同一内容的版本。分类有助于管理“正确的”数据,为特定人工智能用例标记有用内容,同时过滤掉过时、非权威或无关的材料。这不仅提高了人工智能性能,也加速了部署。
存储优化与成本控制:理解“热”数据(频繁访问、高业务价值)和“冷”数据(极少访问、归档)之间的差异对于高效管理存储至关重要。分类实现了跨存储平台的智能分层,将不常用的数据移至更便宜的存储层,同时确保关键任务数据即时可访问。对于管理本地和云系统上PB级数据的全球性企业而言,这可以转化为每年数百万美元的成本节约。考虑到大多数企业(根据Komprise调查为74%)的非结构化数据量超过5PB,这现已成为一项必备策略。
保护错置的敏感数据:敏感数据,如个人身份信息、个人健康信息及知识产权,常常潜伏在意想不到的地方。没有分类,这些文件将保持隐蔽、不受监控,易遭泄露。分类对于自动检测和限制敏感数据是必要的,能确保遵守隐私法规并减少潜在泄露事件的影响范围。
为何非结构化数据分类如此困难
尽管好处显而易见,非结构化数据分类仍然是一个棘手的问题。其根源在于架构碎片化。
大多数企业在数据中心依赖两种或更多存储平台(网络附加存储、对象存储、备份系统)以及一项或多项云服务。每个平台只能“看到”其存储的数据。元数据索引、丰富和标记在孤立的系统中进行,搜索或基于策略的操作(如加密或隔离敏感文件)很少能跨环境执行。
其结果是可见性参差不齐、元数据不完整以及策略执行不一致。这些碎片化的流程无法跟上数据增长速度或业务变化的步伐。随着数据量每几年翻一番,手动标记和孤立工具根本无法跟上。
IT组织需要统一的可见性和一个跨平台的元数据层,无论数据位于何处,都能对其进行索引和丰富。只有这样,他们才能应用一致的分类逻辑、实现自动化标记并大规模执行策略。
非结构化数据管理:从混乱到掌控
高效的非结构化数据管理并非依赖更多存储空间,而是追求更高智能。分类将原始数据转化为受治理、可操作的资产。但实现这一点需要技术和文化的双重变革。具体方法如下:
投资于统一可见性工具:建立一个跨所有存储平台的单一元数据索引是打破孤岛的第一步。
尽可能实现自动化:机器学习模型可以基于文件类型、内容模式和敏感性大规模分类内容。
统一IT与业务目标:分类不应仅仅满足合规要求;它应带来更快的洞察、更好的人工智能结果和数据驱动的决策。
持续改进:数据在演变,分类体系也必须随之演变。定期审计和反馈循环能保持分类的准确性和相关性。
关键要点
非结构化数据的增长速度超过了组织存储或理解它们的能力。没有分类,企业就如同盲目飞行,浪费资源,暴露于风险之中,并错失利用人工智能进行创新的机会。
前进的道路很清晰:将分类提升作为首要任务。它不仅是一项技术实践,更是一项业务要务,决定了组织能否有效保护、优化并从中提取价值。
在数据驱动的经济中,那些能够大规模掌握非结构化数据分类的公司,将是把非结构化混乱转化为竞争优势的公司。
作者Krishna Subramanian是Komprise的联合创始人、总裁兼首席运营官。
