2025年如何利用AI人工智能加强数据治理和应用-数据库专区

2025年如何利用AI人工智能加强数据治理和应用

作者：数据驱动智能晓晓编辑：任朝阳 2025-01-27 17:38 IT168网站原创

　　人工智能如何增强数据产品生命周期、用户体验的重要性以及以较少资源专注于高级垂直行业的能力呢？

　　大多数组织目前正在研究如何将人工智能融入其数据货币化战略，或者人工智能如何帮助直接影响可货币化指标：面向客户的应用程序和体验。

　　为了实现人工智能的宏大目标，我们首先需要对数据也就是人工智能的粮食有强大的目标。从根本上解决“垃圾进垃圾出”的问题。

　　在本文中，我们想专门讨论如何通过人工智能优化数据产品开发，以更快、更自然、更有效地构建和扩展数据产品。

　　常见问题：数据产品不就是为了推动更好的 AI 解决方案而构建的吗？

　　反过来又何尝不是如此呢？

　　人工智能的类别

　　人工智能有多种类型，复杂程度也各不相同。从简单模型到超级复杂的神经网络和树形算法。在操作层面，即使是简单的人工智能结构也能证明非常有效。例如，用于识别异常数据库更新的人工智能数据爬虫。

　　这不需要很高的语境理解，并且可以在结构模式的最基本层面上运作。这也是为什么最简单的人工智能——回归仍然是最常用的人工智能形式的原因

　　数据产品生命周期极大地受益于这种多类操作型人工智能。从设计到演进，数据产品可以以比以前想象的更快的速度开发。通过人工智能增强，任何明显的复杂性都被简化为更简单的操作。

　　组织在构建数据产品时面临的挑战

　　虽然数据产品是解决多项数据挑战的解决方案，但构建这些目的驱动的数据产品的过程可能会被许多组织视为一个巨大的文化飞跃，尤其是那些深陷遗留系统的组织。

　　数据团队缺乏足够的技能来提供类似产品的功能和角色
　　无法扩展到数据产品生态系统（缺乏技能和资源）
　　数据产品清洗：添加另一层冗余，而不是真实的数据产品层（缺乏产品思维和理解）
　　数据产品生命周期耗时较长（对产品实施存在误解）
　　优先级排序失误：任何产品驱动因素的首要技能都是优先级排序，但由于有太多预先存在的请求，很容易忽视

　　正如您所看到的，大多数挑战都源于文化或思维方式的差距，这无疑是真正采用数据产品的一大障碍。采用“产品思维”不能仅仅强加给那些长期习惯以某种方式在传统或现代数据堆栈中工作的数据人员。

　　人工智能比任何其他技术都更接近人类。至少在数据领域是如此。它能够介入人类思维徘徊或抗拒的地方，使流程看起来更自然、更简单。从本质上讲，人工智能不仅有助于消除习惯性阻力并围绕顽固流程发展文化，而且在此过程中，它还推动我们在建立大规模数据产品方面取得进展。

　　本文将探讨人工智能可以补充数据产品之旅以及弥合数据与用户之间差距的关键领域。

　　人工智能补充数据产品过程的关键领域

　　数据产品堆栈中可选 AI 增强的潜在领域。

　　0-1. 语义层的完善过程

　　优先考虑正确的用例

　　跨领域识别关键用例的过程必须主要依靠人工，因为这需要高度的战略性和批判性思维。但是，使用现有流程或数据产品的指标和见解可能会增加更多的优势。

　　例如，营销经理可以向现有的数据产品询问“哪个客户群体在过去两个季度表现不佳，以及与该群体相关的潜在异常是什么”。

　　基于这些洞察，可以开发新的用例来提高细分市场的表现。乍一看，这个过程是这样的：

　　语义层由数据产品原型的逻辑模型提供支持。这是由业务问题引发的。

　　想象一下使用 ChatGPT 或其企业 LLM 的企业

　　这些工具可让每个人立即熟练地提出问题，无需任何专业技能或资质。无需与 REST 接口对话、掌握复杂的 SQL 查询或配置复杂的 API，您只需要学习如何提出问题（这也非常重要）。

　　当我们确定业务痛点并围绕它们提出一些问题时，AI 可以帮助我们提出更多问题或建议修改现有问题。这有助于创建更大的“问题树”，并且创建的正确问题越多，围绕这些问题构建的指标就越准确。

　　解决空白画布问题以构建 Fastrack 度量树

　　空白画布问题是所有以人为本的流程中最大的摩擦点之一。就像写作障碍一样，在白板上写下一堆指标并根据手头用例所需的查询和问题找出潜在的关联可能很有挑战性。

　　虽然人工智能（较低等级）无法为您提供与您的领域目标或背景相匹配的完美结果，但它有助于立即克服空白画布障碍。您可以清楚地了解潜在关系可能在哪里以及如何建立，然后从那里开始，利用只有人类才能获得的战略能力和背景。

　　LLM 生成的指标树，用于在大规模构建指标树时跳过空白画布。只需使用像 ChatGPT 这样的公共 LLM 或更了解公司业务领域（如电子商务）的企业 LLM，PM、SME 和其他相关利益相关者就可以快速获得更复杂的子问题的建议。这减少了头脑风暴的时间，并快速提供大量可直接使用或有助于激发新想法和策略的问题。

　　解决空白画布问题以快速构建逻辑模型或数据产品原型

　　对语义模型进行重复这一过程。人工智能可以参与的地方：

　　推断场景。
　　为实体、度量和维度推荐上下文描述/标签。
　　建议通常在该域级别实施的标准访问 SLO
　　根据实体、维度或度量的描述、含义或标签推荐质量检查

　　2. 简化模拟数据生成

　　由于特定领域数据的复杂性和底层细微差别，生成用于验证数据产品原型的模拟数据流可能是一项繁琐的任务。但如今，人工智能让这一任务变得轻而易举。

　　假设您是物流企业的运营团队成员，并且想要构建一个数据产品，例如“路线效率优化器”。

　　该图描绘了使用 NLP 生成合成数据的一般流程，然后为该流程提供动力以生成实时模拟数据流。

　　模式生成

　　物流数据集的模式可能包括路线 ID、车辆 ID、起点位置、终点位置、距离、运行时间、运送量、运送时间窗口、费用等列。

　　人工智能可以解释这种模式并生成适当的数据类型，例如：

　　路线 ID、车辆 ID、运送量和停靠次数的整数；
　　距离、行程时间、配送量和成本的浮动值，以及
　　起始位置、结束位置和交付时间窗口的字符串。

　　然后，AI 可以分析这些数据以识别模式、优化路线并提高整体路线效率。AI 可以处理更复杂的结构，例如嵌套的 JSON 对象或数组，这些结构在现实世界的数据场景中很常见。

　　人工智能引擎还可以查找可以连接形成数据产品的数据资产（例如表或其他实体）之间的关系。

　　在创建模拟数据和处理真实数据的两个阶段，模式生成过程都同样得到了人工智能的辅助。

　　数据合成

　　一旦定义了模式，AI就可以生成模仿现实世界数据模式的合成数据。这包括：

　　随机数据生成：创建遵循指定分布的多样化数据点，例如为财务数据生成一系列交易金额。
　　模式识别：生成遵循特定模式或相关性的数据，例如监控系统的时间序列数据。

　　实时模拟数据流

　　使用 API 发送提示并接收生成的模式。例如，与 OpenAI 的 API 集成可以实现无缝模式创建。OpenAI 的 GPT-4 或类似的 LLM。AI 可以生成实时模拟数据流，这对于测试事件驱动架构和实时分析平台至关重要。

　　这对于实时个性化、欺诈检测和动态库存管理等应用特别有用。

　　3. 简化物理数据层的流程

　　让我们以搬家公司为例。

　　假设您是搬家企业的运营团队成员，想要构建一个数据产品，比如“路线效率优化器”，用于优化运输路线，减少燃料消耗、时间和运营成本。

　　为了实现这一目标，他们需要整合来自各种来源的数据，例如 GPS 跟踪系统、交通数据、客户地址和车辆性能指标。

　　在物理数据层，这需要从不同来源获取多样化的数据集。AI引擎在这里起什么作用？

　　🕵️ 使用人工智能驱动的数据爬虫简化数据提取

　　人工智能驱动的工具可以自动发现并连接到不同的数据源，包括数据库、API 和云存储。在这种情况下，人工智能驱动的连接器可以自动从 Baidu 地图或 Waze 等服务中获取实时和历史交通数据，以帮助了解交通模式并相应地调整路线。

　　人工智能爬虫可以从安装在车辆上的 GPS 设备中提取实时位置数据。这些数据对于跟踪车辆位置、实时优化路线和确保及时交付至关重要。

　　无缝地从多个数据源获取数据为组合这些数据集并使用它们构建所需的数据产品铺平了道路。在这种情况下，来自远程信息处理系统、车载 GPS 和地图的组合数据呈现车辆性能数据、交付数据、不同的车辆指标等。

　　🕵️ 可以更轻松地识别工作流程部分

　　人工智能驱动的算法和工具使组织能够轻松检测工作流程段，从而自动执行重复性任务，例如提取、分类和验证数据。NLP 算法还有助于对大量文本数据进行排序，并快速准确地提取相关信息和见解。

　　♻️ 帮助实现低级转换的自动化

　　通过利用 AI 简化低级任务，数据工程师可以专注于更高级的任务，例如设计数据应用程序、数据模型和洞察生成。AI 可以帮助自动化低级转换规则，例如规范化位置数据、低级聚合以及通过交通预测丰富交付计划。

　　例如，同一家搬家和物流公司中的一款人工智能 ETL 工具每小时从车队的跟踪系统中提取 GPS 数据。这些数据会自动转换为标准化格式（例如，将不同的时间戳格式转换为统一格式），然后加载到他们的分析数据库中。

　　通过自动执行此常规 ETL 任务，该公司的数据工程师现在专注于高级任务，例如设计复杂的数据模型以及通过分析交通数据、车辆性能和天气状况来预测最佳运输路线。

　　4-5. 简化数据产品层流程和数据产品市场消费

　　📩 数据产品上的更智能请求 + 请求优先级

　　组织内的多个团队提出了多个数据产品请求，这些请求通常很难进行筛选、排序和整体处理。同样，用户在请求数据产品时，通常会遇到繁琐的写下规格的过程。

　　人工智能可以通过以下方式介入：

　　通过提示建议来提高请求质量
　　帮助提供商更自然地理解请求的背景，以决定优先级

　　🚀消费：加速数据集搜索

　　数据总是过剩的。数据产品的好处是它只输出可用和可靠的数据。通过人工智能增强，数据体验差距可以进一步缩小。

　　就像任何其他电子商务购物体验一样，数据产品市场极大地受益于人工智能的推荐能力。

　　根据您的用户角色，AI 将最佳地突出显示适合您的产品或您的域经常使用的产品
　　根据产品使用情况，人工智能将推荐数据产品中的顶级资产或引导用户完成优化的消费路径
　　浏览体验也受益于人工智能集成。推荐，以及特定角色的过滤器和类别。
　　根据用户历史记录，人工智能还简化了消费界面上可供用户深入了解的见解或指标——就像分析仪表板智能地筛选数据过剩一样。

　　这确保了个性化的用户体验——缩小了人与数据之间的最后一英里差距。

　　最后一句话：个性化体验的重要性

　　据《福布斯》估计，86% 的买家愿意为获得更好的客户体验而支付更多费用。在过去两年我们目睹的快速转型中，这一数字预计只会上升。最近，麦肯锡估计，25 家表现最好的零售商都是数字化领导者。他们的利润率高出 83%，并占据了该行业市值增长的 90% 以上。

　　经验不再是竞争优势，而是必备条件

　　如今，大多数成功的品牌始终专注于体验至上。他们利用客户旅程中每个接触点的数据来真正绘制出客户的行为模式。任何新事件都为他们提供了追踪客户潜在决策的优势，从而可以相应地分流运营。

　　客户对个性化的依赖

　　客户已经习惯了交易体验，并认为这是最低限度的要求。因此，他们今天的注意力会自动被那些提供超出基本要求的品牌所吸引。事实上，大多数品牌已经开始依靠数据个性化来指导他们的购买决策。个性化是新的价值增长点。

关注我们