数据库 频道

Databricks vs Snowflake:全方位了解两大数据巨头

Databricks 和 Snowflake 已成为云计算大数据分析平台的主要提供商。虽然这两家竞争对手有一些相似之处,但它们的产品也有一些重要区别,潜在客户可能需要了解一下。

如果您要将数据操作转移到云中,您可能会考虑 Databricks 和 Snowflake,它们是该领域最大、发展最快的两家公司。这两家公司似乎都受益于云中立,因为对云锁定的恐惧促使企业拥抱多云战略和多云平台。

这两家公司显然有相似之处,但它们也有不同的优缺点。这是一个充满活力的行业,新的大数据初创公司不断涌现,试图击败巨头。就在不久前,Databricks 和 Snowflake 还曾是热闹非凡的初创企业,与老牌供应商展开了激烈的竞争。

有鉴于此,下面我们将简要介绍这两家公司及其产品的主要异同点。

产品

Snowflake 通过软件即服务(SaaS)方式提供数据仓库。它支持结构化和半结构化数据(对非结构化数据的支持尚不成熟),还可在 AWS、Google Cloud和 Microsoft Azure 上运行。

Databricks 通过平台即服务(PaaS)方式提供Lakehouse。它支持结构化、半结构化和非结构化数据,并可在 AWS、Google Cloud 和 Microsoft Azure 上运行。

架构

Databricks 最初是在云中实施 Apache Spark(尽管如今它的功能远不止于此),它在提供 Spark 所擅长的大规模数据处理方面一直表现出色。如今,该公司正在推广其Lakehouse架构,该架构将数据湖存储(通过对象存储)的可扩展性优势与传统仓库或分析数据库的数据质量优势相结合。它吹嘘自己的“统一分析平台”结合了数据工程、人工智能和机器学习。

Snowflake 最初是一种分析数据库,其存储与计算解耦,因此更易于扩展。该公司经常宣传其专有分析数据库的性能和速度,该数据库专为传统分析和商业智能工作负载而设计。近年来,该公司开始通过其 Snowpark 产品增加机器学习和人工智能功能,并向非结构化数据类型扩展。

云功能

Snowflake 数据云以为传统分析和商业智能工作负载提供基于 SQL 的高速数据仓库功能而闻名。有了 UniStore,它可以将交易数据与分析数据和工作负载混合在一起。工作负载可根据需求弹性扩展。第三方集成支持各种 ETL 和数据可视化工具。集中存储上的统一数据管理被认为是一个优势。其 Snowpark 开发人员框架为 Python、Java 和 Scala 开发提供支持,并为在文本和图像等非结构化数据上开发机器学习和人工智能应用提供了新功能。该公司对Streamlit的收购也为快速构建Python应用程序提供了工具。

Databricks Lakehouse 平台为数据工程、数据科学和数据分析提供了广泛的功能。客户可以在 Databricks 上构建和运行大型批处理作业、实时流工作负载和机器学习应用程序。开发可通过笔记本或集成开发环境进行,并可使用 SQL、Python 和 Scala 以及 PyTorch 和 Tensorflow 等开源 ML 框架。其 MLflow 产品有助于管理机器学习工作流。其Delta Lake产品支持安全的数据共享,并通过Unity Catalog提供集成的数据治理。今年,它推出了大型语言模型(LLM)Dolly。

平台运营

Databricks 处理海量数据工作负载的扩展能力被认为是一个优势。它通过向量化和基于成本的优化提供了一些自动查询优化功能,但用户通常需要一些专业技术知识才能真正提高 SQL 分析工作负载的性能。它更适合进行更改,例如选择某些节点类型。作为 PaaS,Databricks 更为开放,并邀请用户插入各种开源工具。

作为 SaaS 产品,Snowflake 的设计易于快速上手。Snowflake 为优化开箱即用的性能做了大量幕后工作,它在市场上的成功也反映了这一点。微调配置的选项并不多,因为 Snowflake 有意让客户避免这种复杂性。例如,没有配置节点类型的选项。总的来说,Snowflake 的开放性较低,为用户提供的选项也较少,这就降低了复杂性,使其更容易被广大用户使用。

云安全

Snowflake 为客户管理数据。它支持静态和传输中加密、基于角色的访问控制(RBAC)和审计。它还支持 AWS PrivateLink 和 Azure Private Link 等功能,以增强网络安全性和数据屏蔽。

在 Databricks 的云中,客户管理自己的数据。Databricks 支持静态和传输中加密以及 RBAC。支持 Azure 虚拟网络(VNet 注入)和网络安全组(NSG),可在微软云上实现网络隔离。

定价

Databricks 提供“即用即付”定价和“承诺使用”定价(可享受折扣)。用户根据使用的具体计算服务(如“通用计算”)、使用的虚拟机实例数量、使用频率、运行的云以及支持计划(标准、高级、企业)收费。由于数据由客户管理,因此不收取存储费用。

Snowflake 提供“即用即付”定价,但由于它管理客户的数据,因此它对计算时间和数据存储收费(存储成本由公有云提供商转嫁给 Snowflake)。对于 Snowflake On Demand,它根据客户的使用量收费,按秒计价。客户可以通过预购 Snowflake 容量获得折扣。定价也因云、地区和支持级别(标准、企业、关键业务和虚拟私有 Snowflake [VPS])而异。

云市场

Snowflake 于 2019 年推出了 Data Exchange,一年后更名为 Data Marketplace。它目前提供 2200 多种数据产品,其中许多是免费的。Snowflake Marketplace还提供1700多个应用程序,它称之为原生应用程序(Native Apps)。

Databricks 于 2022 年推出了自己的 Marketplace,作为使用其 Delta Sharing 协议共享数据的一种方式。它目前提供 500 多种数据产品,包括 287 个免费数据集。

开源

源于 Apache Spark,Databricks 在其平台中广泛使用开源软件,并向开源社区贡献了大量工作。不过,Databricks 曾因向开源社区保留其部分技术(如 Delta 表格式)而饱受批评,但后来它又改变了这一做法。

Snowflake 并不是开源的忠实支持者,事实上,它的领导者对开源软件提出了许多批评,包括 Apache Hadoop 的失败。其专有数据库的内部运作情况也是一个谜。不过,它曾公开支持开源 Apache Iceberg,后者是 Delta table 的竞争对手。

创始人

Databricks 由加州伯克利大学 AMPLab 的一群计算机科学家于 2013 年创立,他们是 Apache Spark 的幕后推手。其中包括Matei Zaharia,他通常被认为是创建 Spark 的功臣,还包括他的两位顾问Ali Ghodsi和Ion Stoica。联合创始人 Reynold Xin、Patrick Wendell、Andy Konwinski 和 Arsalan Tavakoli-Shiraji 也都是与伯克利有渊源的计算机科学家。

Snowflake 由三位数据仓库专家创立于 2012 年,其中包括 Benoît Dageville 和 Thierry Cruanes(两人都曾在甲骨文公司担任数据架构师),以及 Marcin Żukowski(Vectorwise 的联合创始人)。

收入、客户数量和估值

根据 6sense 公司的数据,Databricks 拥有约 10300 家客户。今年 6 月,Databricks 过去 12 个月的营收首次突破 10 亿美元大关,近期披露其营收已突破 15 亿美元。最近Databricks 刚获得了5亿美元I轮融资,投资者包括NVIDIA,投后估值430美元,这比 2021 年 8 月的 380 亿美元有所增加。

Snowflake 的市值为484.82亿美元(9月26日收盘价),低于 2021 年 11 月的约 1230 亿美元,当时其股价达到每股约 392 美元的历史高点。Snowflake 在 2023 财年录得 20.7 亿美元的收入。Snowflake公司报告称,截至 2023 年 4 月 30 日的 2024 财年第一季度末,该公司拥有 8100 多家客户。

参考资料:

https://www.datanami.com/2023/09/14/databricks-nabs-500-million-pre-ipo-investment-by-nvidia/

https://www.datanami.com/2023/09/05/databricks-versus-snowflake-comparing-data-giants/

0
相关文章