数据库 频道

数据架构变革,为什么Lakehouse需要Data Fabric?

在大模型引爆的热潮中,今年6月底,Snowflake和Databricks围绕着AI打起了擂台,AI给数据技术带来了变革。如果将目光向前推一个月,就会发现另一场数据架构变革的浪潮正轰轰烈烈展开。

在5月份的连续三周内,IBM、HPE、微软三巨头争相布局Data Fabric+Lakehouse,先后发布新的Data Fabric产品,或更新现有的Data Fabric产品,增加新的Lakehouse功能。在刚刚结束的DTCC2023大会上,我们也发现了Data Fabric+Lakehouse的身影。

Data Fabric+Lakehouse为数据架构带来怎样的变革?为何大家争相布局?能为企业带来怎样的价值?企业将如何应对新技术?本文将尝试解答。

巨头、新贵争相布局Data Fabric+Lakehouse

2020年Databricks提出Lakehouse概念,即我们所说的湖仓一体架构,背后基本思想是将数据仓库和数据湖的优势结合,将数据仓库的高性能及管理能力与数据湖的灵活性融合起来,取长补短。如今Lakehouse和另一个新颖的Data Fabric结合起来,巨头和新贵纷纷布局Data Fabric+Lakehouse,掀起了一场新的数据架构变革热潮。

在5月9日举行的THINK大会上,IBM发布了watsonx.data lakehouse,拉开了今年数据架构变革的序幕。watsonx.data 与IBM云数据中心(IBM Cloud Pak for Data)紧密相连,后者更多扮演Data Fabric的角色,内置治理、集成、隐私和安全功能。

一周后,HPE于5月16日发布了Data Fabric的升级版Ezmeral。更新后的数据架构基于MapR技术,具有S3、Posix和Kafka存储功能,并支持Iceberg和Delta。最大的特点是,HPE将Ezmeral Data Fabric与其新的统一分析(Unified Analytics)相连接。

此后一周,微软于5月23日首次推出了Microsoft Fabric。该产品与OneLake(其Lakehouse产品的新名称)一起,旨在为企业的所有数据管理、分析和机器学习需求提供一站式服务.

数据连接提供商 CData Software的联合创始人兼首席运营官Manish Patel说,IBM、HPE和微软都发布了类似的Data Fabric和Lakehouse,表明市场需求强劲,这也是数据架构和使用模式演变的部分结果。

在刚刚结束的第14届中国数据库技术大会(DTCC2023)上,滴普科技在“基于Data Fabric的实时湖仓平台技术实践”的主题分享中,也提到了Data Fabric+Lakehouse带来的变革,滴普科技基于Data Fabric打造了新一代实时智能湖仓平台FastData。我们在大会期间采访了滴普科技DLink产品总经理冯森,了解新数据架构带来的改变以及对用户的价值。

Data Fabric能为Lakehouse带来什么价值?

Data Fabric是一个比较新的技术名词,在过去几年中,Data Fabric作为一种在数据孤岛不断增长的情况下重新集中管理数据的架构元素越来越受欢迎。我们先来看看权威机构对Data Fabric的定义:

Forrester将Data Fabric定义为是一种智能和安全的并且是自服务的方式,动态地协调分布式的数据源,跨数据平台地提供集成和可信赖的数据,支持广泛的不同应用的分析和使用场景。

Gartner将Data Fabric定义为一种新兴的数据管理设计理念,可实现跨异构数据源的增强数据集成和共享,通过对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台(包括混合云和多云)的设计、部署和使用,从而实现灵活的数据交付。

Gartner自2019年起,已连续三年将Data Fabric列入十大数据分析技术趋势。而在最新发布的2022年重要战略技术趋势中,Data Fabric更是荣登数据分析领域十大技术趋势之首,其重要性可见一斑。

随着数字化转型不断推进,企业数据爆发式增长,数据分散在不同的系统中,容易形成数据孤岛,多云、混合云、异构数据源为数据统一管理、数据分析带来了挑战,限制了企业数据驱动策略的落地,无法充分挖掘数据价值为业务服务。

在Gartner近日发布的技术成熟度曲线《Hype Cycle for Data, Analytics and AI in China, 2023》,滴普科技作为湖仓一体、可组装式分析代表厂商入选了这次报告。冯森介绍,Data Fabric更加强调集中化统一管理,是对数据的管理实现逻辑统一、物理分散的架构。Lakehouse与Data Fabric的结合有效解决了上面的问题。

一方面,Data Fabric+Lakehouse既可以集成和分析海量大数据集,又能够建立统一的数据治理,数据目录,统一控制不同数据源的访问权限,统一管理混合云环境。此外,Lakehouse与Data Fabric的结合帮助用户全面整合了从数据源到数据分析以及数据价值实现的完整链路,为用户建立统一治理、流批一体、湖仓一体的数据智能平台,实现海量数据实时分析,同时又能打破数据孤岛,帮助企业实现跨业务数据的即时访问,实现业务之间有效协作,提升数据生产力,加速业务价值变现,支撑企业数字化转型。

企业如何面对数据架构变革?

企业的数据基础设施的建设并不相同,有的可能没有使用数据仓库,有的可能使用了数据仓库、大数据平台、数据湖中的一种或多种,该如何拥抱新的数据技术呢?

不同规模的企业对数据基础设施的需求会有所不同,比如一些中小企业,数据量和任务复杂度不高,可能采用MPP数仓就可以满足业务需求;一些大型企业数据量比较大并且任务复杂度很高,可能会采用Hadoop+MPP数仓的架构来满足业务需求;还有一些大型央国企子公司很多,需要多数据湖架构,一般会采用基于Data Fabric的多湖多租户的湖仓一体架构才能满足集团统一管控的需求。

实际上,对于新技术的应用本质上都是出于降本增效考虑,在国产化浪潮下,不同企业对新技术的应用也有差异,需要区别对待。

以滴普科技所服务的大中型企业为例,一些企业已经建设了大数据平台,可能需要对大数据平台进行国产化升级替换,在一些央国企的客户遇到过类似的需求,首先要满足其原有大数据平台平替的能力,同时也能够更加有效地通过统一的数据管理平台,降低整体开发运维成本,实现跨业务部门或者跨集团子公司的数据分析需求。

还有一部分企业,数据基础设施建设得比较完善,也比较复杂,会有架构升级的需求,但是受制于目前国内湖仓一体架构还比较新,行业落地实践不够成熟,会先从创新业务切入,然后慢慢逐步替代。创新业务比较常见的是实现实时分析。针对不同业务的实时性分析需求,滴普科技除了提供FastData产品本身支持从数据源到入湖,再到湖内构建分层数仓,再到数据分析这样全链路数据处理分钟级时效性外,还提供秒级及以下的解决方案,比如通过消息队列实现秒级以下时效性,或者将湖内数据出湖到MPP数仓提升数据服务秒级时效性,以及通过任务调度的方式实现分钟或者小时级别以上的时效性等。

一部分企业数据基础设施建设没有那么完善,甚至有的都没有建设大数据平台,相对而言包袱小,可能会直接升级到新一代实时智能湖仓平台。

大型国央企对数据架构升级有不同的需求,需要更灵活的产品组合能力。FastData实时智能湖仓平台基于现代数据栈MDS架构设计,可以通过可拆可合的方式非常灵活地适应不同业务场景,对于还没有大数据平台的企业,可以通过FastData构建一站式数据集成、开发、分析、治理、湖仓一体平台;对于大数据平台相对完整的企业,可以通过拆分各个套件的方式提升原有大数据平台的能力,这样可以更好地帮助企业处理数据,沉淀数据资产。

此外,不管是哪种类型的企业,随着业务的发展和数据量的暴增,对数据的使用都在逐步从从离线场景到实时数据分析场景进行转变。企业希望业务端的数据能够快速被清洗处理,从而满足基于数据的事前预测、事中判断和事后分析。而智能湖仓平台的流批一体处理能力能够支持全链路CDC功能,支持流批一体的方式入湖,并且在湖内通过流读变更数据的方式构建分钟级近实时数仓,同时能够基于分析引擎提供快速的数据服务,不仅简化了数据处理流程,同时提高了系统的数据时效性。

小结:Lakehouse的未来

数据技术的发展日新月异,Data Fabric和Lakehouse结合方便集成和分析大数据集,同时不放弃混合云环境中的集中控制和安全性,这有助于企业沉淀数据资产以及挖掘数据价值。

Lakehouse在国内外都朝着oneLake的方向发展,帮助企业实现数据统一管理和服务,与Data Fabric的结合响应了这一趋势。随着新技术不断出现,Lakehouse跟机器学习/大模型场景的结合也值得关注。

从Gartner发布的技术曲线上可以看出,Lakehouse还处在技术创新阶段,目前已经被大家广泛关注,技术也开始逐步成型。如何实现统一的技术标准,如何解决目前存在的一些技术问题,以及如何帮助客户实现业务价值,是当前需要积极解决的问题。“随着技术逐渐走向成熟,市场认知提高,Lakehouse可能会迎来市场上的一个爆发期。”冯森说,未来可期,但是数据基础设施的建设、升级需要循序渐进。

0
相关文章