数据库 频道

湖仓一体已经变得如此流行,这让我非常吃惊!

湖仓一体(国外叫数据湖屋)是一种将数据仓库的功能与数据湖的灵活性和可扩展性相结合的一种新型架构,近年来备受关注。Dremio公司在2023年底发布了一个湖仓一体的调研报告《2024 State of the Data Lakehouse Survey Report from Dremio》。

这份报告的结论来自一项调查。调查对象是500名全职IT和数据专业人员。这些人都在大型企业工作。

总体来说,调查结果出人意料。湖仓一体在国外获得了高度认可,它的使用率也远超预期。这个发现让我感到惊讶。报告的主要观点如下:

1、湖仓一体正成为主要的分析架构

湖仓一体是一种融合了数据湖和数据仓库优势的新型数据管理架构,支持高性能的分析和人工智能(AI)工作负载。相比传统的云数据仓库(Cloud Data Warehouse),数据湖仓提供了更高的成本效益和操作便捷性。

  • 企业迁移趋势:42%的企业已从云数据仓库迁移至湖仓一体,这是迁移比例最高的源系统。

  • 未来预期:70%的受访者预计在未来三年内,超过一半的分析工作将基于湖仓一体进行。

  • 数据统一计划:86%的组织计划统一他们的分析数据,减少数据孤岛。

采用原因:

  • 成本效率:56%的受访者预计通过迁移到数据湖仓可以节省超过50%的成本。大型企业(超过1万名员工)中,28%预计能节省75%以上的成本。

  • 易用性:易用性(21%)和成本效率(18%)是采用数据湖仓的两大主要动机。

术语解释:

  • 湖仓一体(Data Lakehouse):一种将数据湖的灵活性与数据仓库的结构化查询能力相结合的架构,支持各种数据类型的高效存储和分析。

2、开放表格式和Apache Iceberg的崛起

开放表格式(Open Table Formats)如Apache Iceberg和Delta Lake,正在变革数据管理方式。这些格式提供了在数据湖上直接实现SQL功能的能力,使企业能够高效地查询和处理大规模数据集。

  • 采用情况:31%的受访者目前正在使用Apache Iceberg,39%在使用Delta Lake。

  • 未来计划:在计划未来三年内采用表格式的受访者中,29%选择Apache Iceberg,23%选择Delta Lake,显示了Iceberg的快速崛起。

  • 选择因素:影响选择表格式的主要因素包括性能(77%)、与特定工具或平台的兼容性(72%)、特定功能(62%)和开放生态系统(59%)。

术语解释:

  • 开放表格式:用于在数据湖中组织和管理数据表的开放标准,支持事务处理和高性能查询。

  • Apache Iceberg:一种用于大规模数据集的开放表格式,支持ACID事务,提供高性能查询和与多种工具的兼容性。

3、数据网格驱动的数字化转型

数据网格(Data Mesh)是一种数据管理方法,强调数据的分布式架构和以业务领域为中心的数据所有权,促进数据的可访问性和质量。

  • 实施情况:84%的受访者已经完全或部分实施了数据网格战略,97%预计在明年将继续扩大实施。

  • 驱动因素:数据网格计划更多由业务部门(52%)而非中央IT团队驱动。

  • 主要目标:提高数据质量(64%)和数据治理(58%)是实施数据网格的主要目标。

术语解释:

  • 数据网格(Data Mesh):一种以业务领域为中心的分布式数据架构,赋予各领域团队对数据的所有权和治理权。

4、湖仓一体在AI时代的关键作用

湖仓一体在支持AI开发和部署方面至关重要。

  • 支持AI开发:81%的企业利用湖仓一体支持数据科学家构建和改进AI模型与应用。

  • 模型部署:68%的受访者报告他们在生产环境中有20个以上的AI模型和基于这些模型的应用。

  • 自动化需求:62%的受访者对重复性的手工流程、清理原始数据以及手动合并和调和数据表示不满,表明需要更多自动化和AI辅助的数据管理与治理。

术语解释:

  • 数据自助服务:允许用户无需依赖IT部门即可访问和分析数据的能力,提高了数据利用率和分析效率。

5、数据复杂性与管理挑战

  • 数据源数量:51%的受访者报告他们有20到100个或更多的数据源,显示了数据整合和管理的复杂性。

  • 统一服务能力:湖仓一体通过语义层提供广泛数据访问,同时维护安全性和治理。

6、湖仓一体架构的成本效益

数据湖仓架构通过减少数据移动和数据副本,提高了查询速度并降低了成本。

  • 成本节省:56%的受访者认为通过迁移至数据湖仓架构,能节省50%以上的分析成本,特别是大型企业预计能节省75%以上。

术语解释:

  • 数据移动和数据副本:指在不同系统之间传输和复制数据的过程,减少这些过程可以降低延迟和存储成本。

一点思考

看完了这份报告,我有个疑问,虽然湖仓一体在国内也有很大的宣传,比如阿里云,但总感觉不愠不火,更多的企业持观望态度,为什么国内和国外有这么大的差异?

  • 技术生态和市场成熟度的差异?国外像 Databricks、Snowflake 等专注于数据湖仓一体的公司,技术更成熟和先进?

  • 企业需求和应用场景的差异?国外企业更早地遇到了处理多类型、大规模数据的需求?在人工智能和机器学习领域,国外的高级分析需求更旺盛?

  • 成本和投资回报的考虑?国外企业更倾向于为长期的技术战略投入资金,国内企业更关注短期的成本效益?

  • 市场教育和推广力度不足?国内对数据湖仓一体的市场教育和推广力度不够,许多企业尚未充分认识到其优势?

  • 传统架构的惯性?国内许多企业已经建立了基于数据仓库和数据湖的传统架构,且运行良好,缺乏改变的动力?

0
相关文章