在设计数据地图功能时,需要确定哪些元数据信息对于数据资产管理者以及使用者是有价值和意义,可以提高数据检索效率、提高数据复用度的,一般来说,数据模型的元数据需要包含以下几个方面:
1.数据模型基本信息:
模型名称:数据模型的唯一标识符,如“销售数据模型”。
模型描述:对数据模型的简短描述,如“包含公司销售相关的所有数据”。
所属层级:基于数仓建设分级分类的标准,模型所属的层级ODS、DWD、DWA还是DIM
业务主题或域:如外卖业务,订单域
标签:模型管理时,可以给模型打上一些标签,一个模型只属于一个层级或主题,但可以有多个标签,方便通过标签检索模型
创建者:创建数据模型的人员或团队名称,最好可以复制或连接内部IM,一键唤起聊天窗口,有问题直接咨询
创建时间:数据模型的创建日期和时间。
最后修改时间:数据模型最后一次被修改的日期和时间。
2.数据源信息:
数据源名称:原始数据的来源系统或数据库名称,如“CRM系统”。
数据源类型:数据源的类型,如关系型数据库、NoSQL数据库、API等。
连接信息:用于连接到数据源的必要信息,如URL、端口、用户名和密码等(这些信息通常会被加密或隐藏以保护安全性)。
3.数据表字段元信息:
字段列表:表中每个字段的名称、数据类型、长度、是否允许为空等属性。
字段名(英文):如“ID”、“date”。
字段描述:对字段含义的说明,如“客户ID是客户的唯一标识符”。
数据类型:如整数、字符串、日期等。
统计逻辑:字段的加工逻辑,如订单数限定状态为成功,1,2,3等
主键和外键:定义表之间的关系,如哪个字段是主键,哪些字段是外键,它们与哪些表的哪些字段相关联。
分区字段:一般date分区信息居多
术语定义:数据模型中使用的专业术语和缩写的解释,以确保用户正确理解数据的含义。
代码值映射:对于某些字段中使用的代码值(如状态码、类别码等),提供代码到实际含义的映射表。例如,状态码“01”可能代表“活跃”,“02”代表“非活跃”。
4.数据质量信息:
数据完整性:说明数据是否完整,是否存在缺失值或异常值。
数据准确性:描述数据的准确程度,可能包括验证规则和错误检测机制。
数据时效性:数据的更新频率和最后更新时间,以确保用户了解数据的最新状态。
5.数据安全信息:
访问权限:定义哪些用户或角色可以访问数据模型,以及他们的访问级别(如只读、编辑、管理等)。
加密信息:如果数据被加密存储或传输,提供加密方法和密钥管理信息。
审计日志:记录对数据模型的访问和操作历史,以确保数据的安全性和可追溯性。
6.数据模型版本信息:
版本号:用于区分不同版本的数据模型。
版本描述:说明每个版本的变化内容和目的。
版本创建时间:每个版本的创建日期和时间。
7.数据血缘信息
产出任务ID:生产当前表的任务ID信息,可以跳转大数据开发调度系统查看任务详情
产出任务名称:生产当前表的任务名称
下游表:依赖当前表的下游表
上游表:当前表依赖的上游表及任务,方便数据异常时追根溯源和数据重跑
这些是常见的一些元数据信息,实际进行数据地图产品设计时,需要和数据仓库开发、业务人员(数据分析师)进行调研,结合行业竞品(如阿里dataworks),设计完整的元数据信息和相关产品功能。不仅帮助数据开发人员理解和维护数据模型,还使业务用户和数据分析师能够更容易地找到他们需要的数据并正确使用它。在数据地图中展示这些元数据时,通常会采用图形化和文本相结合的方式,以便用户能够直观地浏览和搜索信息。