数据就绪：生成式AI发挥作用的关键前提-数据库专区

数据就绪：生成式AI发挥作用的关键前提

作者：埃森哲中国编辑：任朝阳 2024-07-24 10:59 IT168网站原创

随着生成式人工智能(Generative AI)的兴起，企业正站在全新的技术前沿。AI不仅改变了我们处理数据的方式，也为业务创新提供了无限可能。但在拥抱未来之前，我们首先需要回答一个关键问题：我的数据准备好了吗?

数据准备是解锁AI潜力的钥匙，但也是堵点所在，有近一半(47%)的CXO将其定义为企业应用生成式AI的最大障碍。随着AI技术的飞速发展，对数据量和种类的需求正在发生变化。在这条日趋复杂的数据准备之路上，我们需要找到正确的方向，以在这场数据革命中取得领先。

根据埃森哲1000多个生成式AI的项目经验，我们识别出生成式AI时代企业必需掌握的六大关键事项。

01、专有数据奠定企业竞争优势

公司内部生成的专有数据(如客户信息、产品细节、运营流程)是企业竞争优势的核心。这些数据不同于公开数据集，能提供独特视角和深入洞察。

尽管现有的预训练模型功能强大，但它们通常缺少具体企业的内部信息，导致在特定企业场景应用时，准确率仅约30%。埃森哲与各大企业合作，将专有数据整合进大语言模型中，可使模型性能和效率提升高达85%。

通过整合历史数据和实时信息，企业能够基于更丰富、更精准的知识资源优化决策流程，降低风险，识别效率提升点，并探索新的收入机会，创造额外经济价值。

关键考虑因素

价值导向的数据资产管理。数据资产管理已不再是企业的纯支出，而是对于一种全新生产资料的开发和维护。企业需要像开发产品那样，采取积极措施保证数据质量(如准确性与相关性)，确保其能有效支撑关键的投资决策;通过投资于数据的收集、清洗、分析及应用等过程来增值。
多元化数据源的整合与利用。企业应当识别在不同业务流程阶段生成的独特数据，无论它们是源自于自身、合作伙伴还是其他第三方机构。在对其进行区分、筛选的基础上，这些多维度的数据来源将共同构建一个全面而立体的信息网络，为企业带来更广阔的战略视野和更深入的市场洞察。

02、非结构化数据蕴藏巨大潜力

非结构化数据包括文本、图像、音频和视频等多种形式，通常包含丰富的上下文信息。尽管这些数据不容易被传统的数据库处理，但它们却蕴含着大量关于用户行为、情感和环境的细节。

生成式AI特别擅长处理这类数据，能够将其转化为对业务有实际价值的洞察和应用。例如，它可以将一个教学视频转换成产品功能列表，总结电话会议的内容，或者生成营销文案。

当非结构化数据与结构化数据(如表格、数字等)结合使用时，可以提供更加人性化和情境化的沟通体验。非结构化数据中的语调、个性、外观和感觉等信号，能丰富人机交互的层次，使交流更加自然和深入。

关键考虑因素

数据可访问性。企业可以通过扩展数据架构、加强安全性并完善治理策略，使其更易于访问和使用。

03、合成数据填补数据空白

AI的系统性能和准确度往往取决于其训练数据的数量和多样性。随着任务的复杂度增加，对数据量的要求也随之上升。合成数据能解决现实世界中数据不足的问题，又避免了直接使用大规模真实数据所带来的高成本和潜在的法律、商业、道德等风险。

合成数据还可以用于风险管理，设计假设情景，以及消除模型中的偏见。这对于确保AI系统公平性和可靠性至关重要。此外，它还能在不侵犯隐私的情况下训练AI模型，避免了真实数据可能带来的隐私泄露风险。

关键考虑因素

成本效益。生成式AI本身就能用于创造合成数据，通过使用大语言模型(LLM)来生成小模型所需的训练数据，是一种成本效益高、不影响准确性的方法。

04、生成式AI解锁数据新关联

许多数据都被困在信息孤岛和各自的功能领域中，这限制了其潜力的发挥和跨部门协作。生成式AI通过促进跨功能数据的使用，使企业能够重新设计贯穿各个部门和价值链的端到端业务流程，从而打破壁垒。

生成式AI的一个重要功能是在正确的时间将正确的信息呈现给正确的用户。试想一下，如果客户服务部门能够“看到”产品研发部门提供的精确规格的必要更新，或者营销部门能够立即了解到供应链能否跟上他们的促销活动，工作将会变得更为高效和顺畅。

案例

过去，宝马销售人员必须查阅实物手册才能了解可能的汽车配置，但在埃森哲所开发的新一代人工智能平台EKHO的帮助下，这一过程只需要几分钟就能完成。EKHO还适用于客户的各项业务，比如在制造环节，它可以通过回答库存和物流问题来优化供应链流程。它甚至能够通过从过去的场景中学习来解决全新的挑战。目前，这一平台已帮助宝马在北美市场将效率提升了30%至40%。

05、生成式AI加速数据风险

大多数新机遇都伴随着新风险，生成式AI也不例外，它带来了一系列与数据治理和安全相关的挑战。企业必须识别并应对以下常见的盲点，以减轻这些风险：

新型数据类型：企业通常使用适用于结构化数据的处理流程，但生成式AI带来了新的数据类型和更动态的数据流，这增加了数据的脆弱性。
更广泛的数据访问：生成式AI使数据和AI工具更易获取，但缺乏防止人为错误的安全措施。培训和建立集体责任文化的重要性日益凸显。
攻击增多：生成式AI带来了新型攻击，包括制造深度伪造(Deep Fakes)、数据投毒(Data Poisoning)，甚至使匿名数据更容易被识别。
保持数据质量：在生成式AI背景下，数据质量不是一次性任务，而是持续性的要求。持续的数据质量控制和血缘追踪对于确保模型的可扩展性和准确性至关重要。

关键考虑因素

公众信任。透明、公开地承诺采取强有力的治理和安全措施，将为企业赢得信任并提升品牌价值。
有效沟通。通过良好的沟通策略、员工培训以及新兴的隐私保护技术，企业能够增强抵御潜在威胁的能力，同时赢得利益相关者的信心。

06、生成式AI与数据双向赋能

数据服务于生成式AI，同时生成式AI又将反哺数据。当将生成式AI应用到现有的数据处理流程中时，它可以改善整条数据供应链，提升数据价值。

生成式AI可以为企业总结和分类业务数据需求，自动生成设计文档、测试案例和数据，并生成运行手册和部署脚本。它还可以用来帮助用户查找、理解并使用数据。

生成式AI不仅仅是一种工具，也是一种推动企业拥抱现代技术栈的战略资源。例如，它支持在迁移和迭代之前对现有系统进行逆向工程，分析其结构和功能，以便于更好地规划升级路径，避免可能的兼容性问题和数据丢失。

关键考虑因素

投资于数据知识库的维护。在整个数据供应链中广泛应用生成式AI，企业需要投资维护有关数据(元数据、描述、服务票证等)的数据知识库。
数据治理更新和质量控制。在数据生命周期转型的过程中，数据治理和质量等流程也需要更新以跟上步伐，从而支持AI技术的集成和扩展。

正如我们所探讨的，数据不仅仅是数字和事实的集合，它是生成式AI时代的金矿。从数据准备度的提升，到数据成熟度的持续发展，每一步都是向数据驱动未来迈进的关键。

关注我们