数据治理是数据应用的基础,近年来,推动数据治理体系建设一直是业界探索的热点。
尤其针对数字政府和企业数字化建设中的多模态数据,如何能够更好地开展数据治理工作、建立全域数据标准、提升数据质量、盘活数据资产、支撑数据融通,最终释放数据价值,进而指导业务创新越来越被大家所重视。
针对异构数据整合难的问题,百分点科技在数据治理中引入了NLP、动态知识图谱、智能交互式分析等技术,并在多个PB级、多源异构数据源的复杂场景下的数字政府数据治理项目落地成果基础上,总结沉淀了一套数据治理“PAI”实施方法论。
“PAI”实施方法论,即流程化(process-oriented)、自动化(automation)、智能化(intelligence)三化论,以逐步递进方式不断提升数据治理能力,为政府和企业后续的数据赋能业务及数据催生业务创新打下坚实基础。
1.流程化
流程化是数据治理工作开展第一步,是自动化和智能化的基础,流程化提供工作流程与模板。
首先,将数据治理执行过程进行流程化梳理,可以将数据治理工作拆分为需求调研、概要设计、详细设计、数据开发、部署运维、培训六个阶段。同时针对以上流程规范各节点标准输入输出项,同时将标准输入输出进行模板化。包括:源系统业务侧调研、源系统技术侧调研、业务流程图、网络架构图、业务系统台账等。另外针对行业通用知识梳理完善以后积累沉淀成行业版知识(抽离通用版),如标准文件梳理:1.代码表整理,2.数据元标准整理(数据仓库行业模型对应标准梳理)。
基于整个治理过程中的六个阶段,百分点科技目前已经详细切分了具体的产出物,并针对每一项细节的工作界定了工作内容和输入输出的产物,从而实现在不同的项目交付单元可以按照标准化的流程做项目实施。
2.自动化
自动化通过产品和工具实现模块化、批量化开发,在保证开发规范性的同时实现降本增效。
在将数据治理项目流程化以后,整个工作内容及具体工作产出已经比较明确了,但是在流程中还会涉及大量的开发工作,同时很多工作具有较高的重复性或相似性。并且,开发使用的流程及技术都是一样的,只是配置不同,因此自动化开发应运而生。
自动化开发可以针对流程化之后的相关节点及标准输入输出进行自动化开发,降低人力成本,让大家将精力放在业务层面及新技术拓展上,避免重复人力工作,比如自动化数据接入及资源库、主题库脚本自动化开发等。
自动化能够实现产品赋能与工具提效,在整个模型设计完成以后,可以结合流程化的内容实现50%-75%以上的效率提升,极大地缩减了人力成本和时间。
在产品赋能中,百分点科技针对数据资产融合管控的需求提供资产管理平台;针对标签动态管理的需求提供标签管理平台;针对数据资源高效协同的数据服务需求提供资源服务平台;针对全维度、多视角的业务呈现需求提供BI平台,基于这些平台可以更好地降低实施人员的技能要求,更好地完成数据治理工作。
在工具提效方面,针对资源库和主题库的加工,百分点科技还抽象化了不同的数据加工策略,形成了不同的算法模板,通过这些算法模板将数据处理加工策略配置好,对应数据加工的脚本就可以自动生成出来。常规加工策略包括:增全量历史拉链表、流水表等。
另外,针对数据接入、调度也提供工具进行批量开发。数据接入批量开发中只需配置数据库连接、源库、源表、频度、增全量、增量条件、目标表即可生成对应数据接入作业。对于调度配置,只需要在Excel配置依赖关系及作业属性即可,目前大部分批量作业是按天执行的,可以直接生成;对于分钟级、小时级作业,通过修改模板配置即可。
3.智能化
智能化提供非结构化数据处理和分析能力,结构化数据治理效率和质量提升能力。
针对非结构化数据,第一步就是数据获取,通过文档提取、文本解析、视频解析和语音解析等工具,可以快速将数据进行电子化处理,并将电子化后的数据结构化,辅助于后期的决策分析。
另外,百分点科技依托于认知智能实验室,利用机器学习、深度学习、迁移学习等技术结合行业知识,进行知识抽取、知识建模、知识融合,在应急、公安、融媒体等多个行业进行了知识图谱建设。
针对结构化数据,现阶段数据治理流程中依旧有非常多的人工处理工作,这些工作大部分跟业务领域知识及实际数据情况强相关。因此,如何快速精通行业知识和提升行业经验是数据治理过程中新的“拦路虎”, 如何更好地沉淀和积累行业知识,智能化提供设计和处理的建议是数据治理“深水区”面临的一个新的挑战。数据治理智能化将为我们的数据治理工作开辟一个 “新天地”。总体包括三个方面:
1.数据元标准智能化,百分点科技总结了一套数据元标准构建的流程,快速获取行业术语,沉淀行业知识,包括统一实体、统一命名、统一字段类型和统一精度,建立标准命名词库,最终实现元数据标准化。其中:文档提取、中文归一化、行业知识分词、行业知识翻译、行业知识缩写都依托于智能化治理措施。
2.数据模型设计智能化,数据中台模型设计过程中概念模型(CDM)、逻辑模型(LDM)、物理模型(PDM)与知识建模流程中的本体定义、实体定义、属性定义、关系定义几乎完全对应,目前数据中台模型依赖于需求模型人员的行业经验设计,百分点科技目前正在进行通过深度学习、迁移学习的方式进行智能化领域模型设计研究,逐步实现行业主题模型智能化构建。
3.数据融合加工智能化,在数据加工层面,目前流程跟建模流程类似依赖于模型人员调研各业务系统数据,通过mapping文档进行数据整合规则的整理,尤其是主数据加工过程,比如企业工商信息的主数据合并问题,它的外部数据来源和内部业务系统对应的这些字段之前全靠人工梳理出来,并且在加工之前要人工看上几十条上百条数据,分析数据情况。此过程与知识图谱构建过程中的实体消歧和属性对齐理念不谋而合,百分点科技也在通过智能化手段在进行主数据加工智能化研究,逐步减轻模型人员工作实现数据加工智能化。
针对结构化数据通过元数据、数据以及其他业务知识输入,比如专业书籍、论文、政策文件等,结合知识图谱数据实现结构化数据智能化治理,逐步减少或替代人工梳理及规则制定等工作。
最后,知识复用方面,行业知识的复用也是后续新项目或是新领域需要重点关注的内容,包括行业标准文件、数据元、代码集、DQC、数据清洗方案、脚本开发、指标库、业务知识问答库等。通过历史项目的积累后续项目可以直接复用或是针对相似内容提供参考依据,尤其是指标库和业务知识问答库更能体现业务专业性,便于项目推进。
有了成套的实施流程和理论、配套的解决方案,以及完善的行业知识问答库后,还需要与业务相融合,对数据进行更深地了解,让日常的业务知识辅助我们更好地理解数据的内容,完善数据加工逻辑、提升数据质量,以更好地服务于业务应用。
数据治理是一个长期的过程,百分点科技会继续在以下四方面进行深耕。
一是智能化建模和数据加工优化,通过规则库积累和模型优化不断完善行业版DW建模,将数据沉淀到知识库,打造通用版智能主数据产品。
二是智能化完善数据安全管理,通过智能化控制数据权限分配、智能化数据审计和智能化制定数据加密脱敏策略等手段,不断提升数据安全。
三是智能化设计并维护数据生命周期管理,通过智能化识别数据和制定数据保留策略,实现数据的全生命周期管理。
四是进行Data Fabric的融合探索。Data Fabric也入选了Gartner发布的2022年重要战略技术趋势,也是通过智能化手段进行数据识别管理的一种思路。