数据库 频道

好的数据目录的基本特征

现代企业是数据驱动的,有效的数据管理成为企业的首要任务之一。数据目录是数据管理策略的重要组成部分,使用户能够轻松查找、理解和信任其组织的数据。

一 数据目录要点

下面我总结了应该在数据目录解决方案中寻找的 6 个最重要的基本功能。在本文的后半部分,我将阐述一些“高级”功能,如果想确保该解决方案被所有公司用户长期使用并喜爱,那么这些功能是必须的。

数据摄取和数据发现

要实施有效的数据目录解决方案,需要能够将其连接到所有或至少大多数公司系统:应用程序、数据库、文件,甚至外部 API。好的数据目录包含许多预构建的适配器,以便轻松连接。它们自动发现系统中的所有元数据,例如表名称、属性名称、约束等。

重要的是,数据发现不是一项一次性活动。相反,数据发现是一项长期活动,数据目录应该不断扫描源以发现新的数据集并保留数据历史记录。

搜索——让人们找到数据

数据目录最重要的功能之一是搜索和查找功能。数据目录应该是所有公司数据和元数据的“百度”。它应该是智能的,能够快速为用户找到相关数据,即使他们并不确切知道自己在搜索什么。它应该可以帮助用户只需单击一下即可发现新的且最值得信赖的数据集。

业务术语表

仅了解哪些系统中有哪些表或字段还不够,必须能够将它们链接到业务术语,以便向最终用户解释特定数据的含义。这就是为什么业务术语表功能也至关重要。

业务术语表是公司的“常见问题解答”,解释了数据的含义,例如“逾期天数”的含义及其计算方式。即使是像“活跃客户”这样看似简单的术语,其定义也可能不一致:是五年前借过贷款并已经还款的客户,还是每月主动存款的客户?员工可以成为活跃客户吗?

业务术语表应该在整个数据目录中使用,但也应该与外部应用程序(例如商业智能(BI)工具)集成以增强报告。这是一项重要功能,因为它将帮助减少组织中的问题数量和来回次数,无论是不同部门定期使用的业务术语的定义、未知属性中数据的含义,或如何过滤特定报告。

元数据管理和模板

良好的数据目录支持自由添加额外的元数据,使用数据类别(例如敏感、GDPR、PII 相关、跟踪企业主)和任何其他重要信息等内容标记术语。它们还能够支持管理任何类型的元数据,不仅涉及数据,还涉及报告、API、服务器或环境中的其他任何内容。

数据沿袭

数据沿袭帮助用户了解数据目录中任何数据资产的来源和目的地、数据在获得最终结果的过程中如何转换或丰富、不同数据片段如何相互关联等等。数据沿袭对于满足计算和数据准备可追溯性的监管要求至关重要。因此,它应该被视为任何数据目录解决方案的重要组成部分。

数据市场

这是元数据管理解决方案的最新趋势。由于数据目录是用户查找数据的中心位置,因此用户也希望访问并能够使用该位置的数据,这是显而易见且合乎逻辑的。本质上,如果数据目录工具允许用户下载数据集或将其连接到他们偏好的 BI 工具或其他应用程序,同时该工具可以确保根据数据域和角色应用访问策略和限制。对于组织中的个人来说,它成为一种员工可以“购买”或购买公司数据的市场。

二 不太明显的功能可确保数据目录的长期使用和寿命

公司拥有数据目录是一回事。用户是否成功采用它并开始使用它是另一回事。现在,我将分享我 15 年数据治理项目经验的一些收获,以及我认为在确保采用和维持现代数据目录时“必须”的内容。

始终保持最新状态:人工智能将完成手动工作

上面提到的很多事情都是由数据目录解决方案的用户手动完成的。这通常是一个耗时的过程,需要公司员工付出巨大的努力,尤其是在解决方案推出时。然而,随着时间的推移,数据往往会变得过时。然后,用户停止使用该解决方案,因为目录不完整——数据丢失或过时。想象一下,在目录中查找“营销许可”一词,并发现同事张三是所有者,但已经不再在公司工作。或者可能会找到几年前的数据集。您不太可能再回到该目录,甚至可能开始阻止同事使用它。

这正是需要自动化的原因。人工智能和机器学习可以应用于许多领域,帮助用户:

  • 扫描源系统以获取新数据;检测并记录新数据项

  • 自动分析数据,为用户提供有关数据内部内容的信息

  • 自动域检测(找出数据内部的内容),使数据的合规属性等内容保持最新、可发现,并根据数据来源的域或系统分配给指定的业务所有者

  • 检测数据的相似性,并尝试猜测不同数据源中数据点之间的关系。这还包括检测重复数据,并允许用户加入或合并来自不同源系统的数据。

数据质量监控和异常检测

用户可能对使用数据持谨慎态度,尤其是在他们不确定数据来源是否正确或质量是否可疑的情况下。监控数据质量及其随时间变化的能力可以直接嵌入到数据目录中,帮助用户了解他们是否以及如何信任或使用特定的数据集。检测数据的异常或突然变化并通知用户此类事件非常重要,这样可以不断纠正错误。

目录适用于每个用户,用户体验必须成为产品策略的一部分

可以使用 Excel 作为数据目录。但保证用户长期使用的关键是可用性。我们选择的工具必须将此作为其核心要求的一部分。

目录是面向业务和技术用户的工具。该目录 必须可供所有人访问。高级功能应保留给数据管理员和更高级的用户。

以“社交功能”结束

用户体验是通过微妙而简单的事情创建的,例如对数据集进行评分、评论、与同事共享等的能力。虽然简单,但这些功能是数据目录采用的关键。

重要的是要了解,虽然公司中只有 1% 的人员会创建和更新目录内容,但 99% 的用户都会使用它。

内容制作者看到的“赞”越多,他们就越能看到保持内容活力的价值。用户看到的点赞越多,他们就越会明白自己正在寻找有用的东西。

不要仅仅依赖人工,自动化可以使目录保持最新状态,并且是数据治理计划长期生存的必要条件。

0
相关文章