数据库 频道

一体化数据编织叩开Lakehouse的大门

您可以将自己的数据管理工具拼接在一起,然后在Lakehouse架构上运行。或者,您也可以从最近推出此类产品的科技巨头那里购买一个预构建的数据编织,预集成在Lakehouse架构之上。选择由您决定。

在过去几年中,数据编织(Data Fabric)作为一种在数据孤岛无情增长的情况下重新集中管理数据的架构元素越来越受欢迎。传统的数据编织会在元数据层面汇集各种数据管理工具,包括 ETL、治理、流程跟踪、数据目录和访问控制,目的是让管理员更容易以可控、非混乱的方式授予用户访问不同数据孤岛的权限。

许多大公司通过将各种最 佳产品集成在一起,建立了自己的数据编织。一些数据管理工具供应商也提供了自己的套件,其中包括 Informatica、IBM、Talend 等供应商。请参阅本篇报道,了解 Forrester 分析师 Noel Yuhanna(“数据编织 ”一词的创造者)是如何评估市场的。

但是,IBM、HPE 和微软新推出的数据编织表明,市场可能已经为预建数据编织做好了准备。在5月份的连续三周内,微软、HPE和IBM分别发布了新的数据编织产品,或更新了现有的数据编织,增加了新的Lakehouse功能,旨在方便集成和分析大数据集,同时不放弃混合云环境中的集中控制和安全性。

IBM 将Lakehouse存储视为其数据编织的一个组成部分

在5月9日举行的THINK大会上,IBM发布了watsonx,拉开了今年春季数据架构热潮的序幕。从技术上讲,Watsonx.data 是一个Lakehouse,它利用在 AWS 或 IBM Cloud 上运行的基于云的对象存储,以及用于数据处理的 Presto 和 Apache Spark 引擎(现有客户还可以使用传统的 DB2 和 Netezza 引擎)。Apache Iceberg 提供数据一致性,watsonx.data lakehouse与IBM云数据中心(IBM Cloud Pak for Data)紧密相连,后者更多扮演传统数据编织的角色,内置治理、集成、隐私和安全功能。

HPE Ezmeral Data Fabric 软件将文件、对象、表和流数据整合到统一的数据平面中(来源:HPE)

一周后,HPE于5月16日发布了Ezmeral Data Fabric的升级版。更新后的数据架构基于 MapR 的技术,具有 S3、Posix 和 Kafka 存储功能,并支持 Iceberg 和 Delta(Databricks 的表格格式)。最大的新闻是,HPE 将 Ezmeral Data Fabric 与其新的统一分析(Unified Analytics)相连接,后者具有 Spark、Apache Superset、Apache Airflow、Feast、Kubeflow、MLFlow、Presto SQL 和 Ray 的 “Kubernetized ”版本。这些引擎被隔离在容器中,以限制各自的 “爆炸半径”,这是从 Hadoop 时代吸取的教训。

Microsoft Fabric 与 OneLake 相结合,旨在为大多数数据、分析和人工智能需求提供一站式服务(图片来源:微软)

此后一周,微软于5月23日首次推出了Microsoft Fabric。该产品与OneLake(其Lakehouse产品的新名称)一起,旨在为企业的所有数据管理、分析和机器学习需求提供一站式服务。在数据管理方面,Microsoft Fabric 带来了数据治理、ETL、数据发现、共享、脉络和合规性管理。数据存储在Delta中,这体现了微软与Databricks更紧密的合作关系。同时,Azure云上的各种数据仓库和人工智能产品(更不用说Databricks的引擎了)都可以在数据上发挥作用。

数据连接提供商 CData Software 的联合创始人兼首席运营官 Manish Patel 最近向 Datanami 透露了对这一消息的一些看法。他说,这表明客户已经准备好更轻松地进入大数据领域,而供应商也准备好为他们提供这样的服务。

“我认为,IBM、HPE、微软和其他公司试图做的是说,你不需要跨多种产品、多种技术去做这件事,也不需要学习多种做事方法,在这里,你几乎可以用一种单一的方式,用单一的领域知识去做这件事。”Patel 说。

“我认为,这些大公司和大机构正在共同努力,基本上就是说,我们可以为你简化这一切,”他继续说,“我们将为你提供一种方法,让你在你所了解的技术中做事情,你已经把它作为组织或支出的一部分来购买了。为什么要去其他地方寻找呢?”

Patel 说,IBM、HPE 和微软都发布了类似的数据编织和Lakehouse,这表明市场需求强劲。但他说,这也是数据架构和使用模式演变的部分结果。

“我认为可能有一些大型企业决定,听着,我不能再这样下去了。你需要去解决这个问题。我需要你这样做,”他说。“但也有某种程度的原因,那就是我们的方向.……我们总是会处于这样一个位置,即治理和安全以及所有这些类型的事情变得越来越重要,越来越与我们的日常工作交织在一起。因此,我对这些事情开始演变并不感到惊讶。”

虽然有些企业仍然认为在构成数据编织的每个类别中选择同类最 佳的产品很有价值,但许多企业愿意放弃在某个特定领域拥有最新、最强大的功能,使用整体解决方案的数据编织。

这可能是由于数据编织解决方案的不断成熟,以及人们认识到这是一种有价值的数据访问模式。Patel 说,这也可能是经济不确定性和对 IT 支出(尤其是云计算支出)更严格审查的副作用。

“我认为,在鼎盛时期,能够说'嘿,我有一种产品能更多地实现 XY 和 Z 功能,或者更好地实现 XY 和 Z 功能'是件好事,因为这或许是一种差异化优势,或许它能提供价值。”他说,“但是,一旦进入成本审查阶段,我认为人们就不得不开始削减其中的一些想法.……这是对支出的重新平衡,而不是完全削减所有支出。”

Patel认为,Microsoft Fabric是微软超越他人的一种潜在方式,能通过Office 365利用其在生产力软件方面的既有优势。

“我认为.……微软能够与受众对话,能够与Office 365、Teams等日常工具相连接,我认为这可能会给他们带来优势,”他说。“至少在我看来,这种跨企业的互联体验是他们独 一无二的优势。”

原作者:Alex Woodie

0
相关文章