数据库 频道

Data Fabric:数据管理的未来已来

Gartner等分析师声称,数据编织(Data Fabric)是数据管理的未来。事实上,未来已来。从可预测的市场空间和可见的投资回报率,我们看到许多市场上成熟的迹象。数据编织有集成企业数据和减少数据发现、分析和实施中的重复性任务方面的独特能力,这也是许多人认为今年将是现代数据整合方法爆发年的原因。

Gartner将数据编织定义为一种设计概念,作为数据和连接流程的集成层或结构。数据编织使分散在不同地点、由不同应用程序使用的数据能够在统一的数据层中,在相同的管理和安全下被实时访问和分析。是通过利用人和机器的能力来做到这一点。

数据编织模型正发展成为一项成熟的技术,这主要是因为数据正在呈指数级增长,数据源正变得更加分散,而许多企业仍然没有弄清楚如何获得推动发展所需的有用数据。因此,利用数据编织的企业将是成功者。

剖析数据编织--不仅是其组成部分的总和

有些人认为,数据编织只是元数据管理系统的另一个术语。当然,企业应该有一个元数据驱动的设计,以动态支持不同的数据交付方式,并确保数据编织的成功。但这仅仅是个开始。

尽管数据编织中成功地使用了数据虚拟化,但将数据编织定义为一个虚拟化和隐藏其他数据源的系统是错误的。是的,数据虚拟化创建了一个数据抽象层,无需物理移动,以整合所有的数据。但是,数据编织也并不局限于此。其他人认为数据编织是一种方法,可以从数据中心的任何机器上访问所有文件级数据。这是真的,但同样,它只是真正的数据编织的一部分。

利用人和机器的能力,数据编织包括上述所有的组件,并提供一个协调的方法来收集、统一和管理整个企业数据管理系统的数据源。事实上,许多早期采用者建立数据编织是为了解决一个较窄的问题或在一个特定的用例中取得成功,但后来发现可以在其他方面使用。

推动发展的因素

在Covid-19大流行期间,许多行业为了生存而进行数字化转型。这些变化增加了对可访问数据的需求,导致对数据编织概念的采用增加。三V(数据的数量、种类和速度)始终是一个问题,加剧了其他数据问题,而数据编织很适合解决这些问题。

以安全管理和欺诈检测/预防为例。数据编织可以自动检测数据异常,并采取相应措施进行纠正,减少损失并提高监管合规性。数据编织使企业能够定义治理规范和控制、改善风险管理,以及改进监测。鉴于数据治理和风险管理的法律标准变得更加苛刻,合规/治理变得至关重要,数据编织还能通过避免潜在的监管处罚来节约成本。

数据编织代表了一种本质上不同的数据连接方式。那些已经采用数据编织的人现在明白,他们可以以不同的方式做许多事情,为企业提供了一个解决问题的很好途径。因为数据编织跨越了整个数据工作的范围,解决了所有成员的需求:开发人员、业务分析师、数据科学家和IT团队成员的共同需求。因此,POCs将继续在各部门和部门之间发展。

随着大数据、小数据、分析、业务敏捷性和AI/ML对数据共享的需求持续存在,企业现在意识到,拥有同一数据编织的多API访问是有帮助的。

根据Gartner的说法,数据编织正变得越来越流行,因为它是一个单一的架构,可以解决组织数据资产的多样性、分布、规模和复杂性。他们还表示,这种方法将整集成计时间减少了30%,部署时间减少了30%,维护时间减少了70%,因为数据编织设计借鉴了使用、重用和结合不同数据集成风格的能力。

该报告认为,数据编织推动了自动化的数据和元数据发现、数据质量和集成,从而推动了增强数据管理的发展。据了解,在大多数的数据质量、控制和集成解决方案中,自动化重复性任务可以将这些解决方案的整体成本降低35-65%,这取决于现有的方法。

它还允许组织从应用程序的弹性中受益,尽管系统组件出现故障,但仍能正常运行--当应用程序是分布式的时候,这项艰巨的任务变得更加困难。随着企业继续在多个层级和技术基础设施上快速实施软件,弹性的重要性日益凸显。然而,实现弹性需要在架构的各个层面上进行规划,并不断进行重新审视。

实现API的标准化,提高访问的一致性,以及创建简单的方法来导入和消费组织内的各种数据正变得非常重要。一个精心设计的数据编织可以实现这些目标,并使应用程序对数据源的变化和错误具有弹性。

标杆验证出现

企业也在寻找利用非常大的公共数据集的方法,如Wikidata数据集,它是维基百科和其他维基媒体项目的结构化部分。最大的开放式RDF数据集Wikidata包含170亿个三元组和大约1亿个实体,这可能是为什么企业越来越有兴趣将这些公共数据源与自己的内部数据结合使用的原因。可用的公共数据也为企业提供了一个机会,能够方便地比较各种数据编织促成者的基准工作,为供应商/集成商在大规模下创建数据库的速度和查询表现进行基准测试。随着基准的公开化,将进一步证明支撑和支持数据编织的技术可以产生卓越的结果。

企业知识图谱是一个切入点

由于数据编织描述的是一套集成的数据管理技术,这意味着它可以以各种方式构建。然而,语义知识图谱、主动元数据管理和嵌入式机器学习(ML)等能力是确保数据编织设计成功的必要组成部分。

企业知识图谱(EKG)能够实现所有这三个特征,所以它们被认为是创建数据编织的理想切入点。事实上,许多人正在采用EKG,以建立一个单一的数据层,而不必摧毁和替换他们现有的数据仓库和数据湖。

在上述报告中,Gartner认为“数据编织是基础”,因为该方法改善了现有的基础设施,逐步增加了数据管理自动化,并将传统的做法与新兴的做法相结合。在同一份报告中,Gartner说,为了赢得数据编织的成功,企业要确保它支持不同数据交付方式的动态组合(通过元数据驱动的设计),以支持特定的用例。通过对数据管理生态系统实施持续发展的数据工程实践,来操作数据编织。并通过利用现有的、熟知的、成熟的集成技术和标准来构建数据编织,但要继续对团队进行新方法和实践的教育,如DataOps和数据工程,也包括边缘环境。

在过去的几年里,数据编织一直是一个不断发展的趋势。未来已来,现在是最好的开始时机。

作者Navin Sharma是Stardog的产品副总裁

0
相关文章