数据库 频道

微软和 Databricks 双剑合璧,为数据平台市场带来什么改变?

在微软的 Ignite 大会上,其首席执行官Satya Nadella称,Fabric 可能是自SQL Server 推出以来最大的数据产品发布。

Microsoft Fabric于本月初GA,承诺将数据工程、数据湖、数据仓库、机器学习和人工智能整合到一个平台中。

Fabric在很大程度上依赖于Databricks的开源技术,Databricks与微软建立了广泛的合作伙伴关系,并将其产品与Azure云平台紧密集成。

不过,分析师告诉The Register,用户最好关注数据出口成本,而且扩展方法可能无法满足客户对企业商业智能(BI)和数据仓库工作负载的性能需求。

在 Fabric GA 的新闻中,微软发布了镜像(Mirroring)功能,声称它将通过在自己的数据湖中创建外部数据源的副本来提高分析性能。

Ventana Research分析师Matthew Aslett表示,虽然这类功能可能会让微软领先于Snowflake和谷歌等竞争对手,但这种优势不太可能持续太久。“每家都在朝着同一个方向努力,在不同时间发布新产品,其他厂商也会迎头赶上:在这一点上,所有大厂商之间的竞争非常激烈。”他说。

数据工程、数仓和分析市场上的其他一些供应商(包括 SAS、Teradata、Qlik、Fivetran 和 Informatica)也都发布了公告,以配合 Fabric 的发布,并打赌微软将成为许多用户的首选平台。

这样做的目的是确保如果用户选择 Microsoft Fabric 作为其主要数据平台,他们仍能在游戏中胜出。“很多企业都希望减少数据和分析供应商的数量,”Aslett 说。“显然,他们正试图在这两者之间取得平衡,但又不被锁定。这是个有趣的平衡点:你希望减少供应商的数量,将其减少到一家,但他们所面对的大多数企业都拥有一系列不同的数据平台。”

在镜像功能中,微软将外部数据库的快照复制到OneLake的Delta Parquet表中,并保持副本 “接近实时同步“。然后,用户可以创建快捷方式,允许其他Fabric工作负载(连接器、数据工程、构建人工智能模型、数据仓库)使用数据,而无需再次移动数据。微软承诺,Azure Cosmos DB 和 Azure SQL DB 将能够使用镜像访问 OneLake 中的数据,而 Snowflake 和 MongoDB 客户也可以这样做。

微软承认,通过将数据镜像到 Fabric 中,它将创建一个额外的数据副本,但能获得性能优势。例如,该副本避免了向Snowflake发送SQL查询,因为Fabric副本使用Apache Parquet和Delta Lake作为原生格式,因此OneLake可以在收到查询时将数据粘贴到内存中。

但用户在权衡镜像功能的优势时,需要考虑将数据从远程系统移出时的出口成本,Aslett 说。

“这当然是企业在使用这种功能之前需要评估的问题。”他说,“这将取决于数据源和其他各种因素,但这绝对应该是一个考虑因素。”

与此同时,Snowflake也提出了自己的主张,即通过支持数据湖和数据仓库,同时使用Apache Iceberg表格式(Cloudera和谷歌也支持该技术)查询外部数据源,成为无所不能的平台。该公司表示,它相信消除数据副本可以简化管理并提高效率。

在11月中旬宣布Fabric消息的同时,Databricks确认将对其Lakehouse平台进行全面改造,推出一个名为DatabricksIQ的所谓数据智能层,为其Lakehouse平台的所有部分“提供动力”,该平台旨在适应非结构化数据湖以及结构化商业智能和分析数据仓库工作负载。

Databricks的新平台计划利用其斥资13亿美元收购生成式人工智能初创公司MosaicML所获得的技术。Databricks 声称,它将推出端到端检索增强生成(RAG),帮助创建“高质量的自定义数据对话代理”,但尚未公布任何产品细节。

数据湖和数据仓库的性能不能一概而论,在BI场景中,可能会有数百甚至数千名用户同时访问数据库,老一代供应商通过查询优化和专业硬件解决了这个问题。虽然基于云的现代数据仓库可以通过增加节点来解决这个问题,但用户将面临相应的成本。

2021 年,Gartner 指出,基于云的数据湖可能难以应付 10 个以上并发用户的 SQL 查询。Databricks对这一说法提出了质疑,但表示已经意识到了其中的挑战。该公司表示,为了支持更多用户,客户可以在云中安装更多终端。

Aslett说,越来越多的企业在尝试扩展数据湖和支持企业BI工作负载时意识到了困难。

“我们看到这样的例子:一些企业已经对云环境进行了一些小规模测试,可以在小范围内提供性能,但当他们将其投入生产,面对更高水平的并发用户和更高水平的并发查询时,就会遇到性能方面的问题。我们看到企业对高性能工作负载有了更多的认识,这也是我们看到一些工作负载仍留在企业内部的原因之一。”

例如,阿迪达斯围绕 Databricks 建立了一个数据平台。该环境支持这家全球体育用品制造商开发机器学习模型。它还支持商业智能工作负载,该公司还利用内存数据库Exasol创建了一个加速层。

Exasol公司首席技术官马Mathias Golombek告诉The Register,该公司经常在客户发现他们的数据平台无法以足够的性能支持某些工作负载的项目中被请来。“像阿迪达斯这样的客户,可能有超过 10000 名 BI 用户在查看不断更新的仪表盘。”他说,你需要一个强大的加速层,而这正是我们所提供的。

根据 Exasol 的市场调查,近 30% 的客户在使用 BI 工具时遇到性能问题。“这意味着没有足够的人可以访问BI仪表盘,或者它们太慢,或者由于底层数据系统的原因,使得用户可以提出的问题的复杂性受到限制。”Golombek说,Exasol的产品Espresso是一种商业智能加速器,它基于公司的内存列式数据库,具有大规模并行处理(MPP)架构和自动调整功能。

Amalgam Insights公司首席执行官Hyoun Park表示,通过重新命名其平台并整合GenAI功能,Databricks声称可以在用户的所有数据中提供相同的语义上下文,同时在整个AI生命周期中保持对知识产权的管理。“这一新的产品定位表明,仅仅把所有数据放在一个地方并对这些数据进行分析已经不够了。”他说。

Databricks 早在 2020 年就提出了 “Lakehouse”的概念,并获得了可观的资金。今年9月,第I轮风险投资又获得了5亿美元,名义估值为430亿美元。Park 说:“这些现金可以帮助公司定义‘下一代术语’,让他们看到未来几年的发展方向。”

然而,管理多节点 Spark 集群的复杂性意味着需要一个第三方技术层来提高性能。

“基于内存 MPP 和自动调整,Exasol 一直以支持分析的速度而著称,”Park 说。随着数据量的增加,支持结构化数据的高性能分析变得越来越具有挑战性,我们正在到达一个拐点,在这个拐点上,数据开始超出多节点Spark集群管理的复杂度,或使其不堪重负。

“虽然有缓存常用数据等优先使用内存的策略,不过一旦没有额外的策略来支持更快的查询,而又不占用 Spark 集群资源和管理技能,Exasol 可用作复制结构化 Databricks 数据的工具。”

虽然 Databricks 和微软正在竞争和合作,以定义在单一环境中支持 BI、分析和机器学习的一站式数据平台市场,但是最终用户为了性能的缘故还需要其他的选择。

0
相关文章