GenAI时代,企业与个人都在调整自身以因应时代的变革,一切变得太快了,仿佛慢一拍就要错过整个时代,收并购这种快速资源整合的方式也按下了加速键,成为新的常态。
我们看到,一些数据库厂商成为被收购的标的,而一些数据库厂商成为资源整合的主导者,通过收购加速迈进AI时代,打造新的增长曲线。总体来看,数据技术类公司都是围绕着Data+AI、实时分析做文章。
接下来,我们重点盘点一些数据库领域的收并购,其中,数据领域的双子星Databricks和Snowflake这几年收购的动作非常多,也是本文的重点。一起看看这些数据领域企业如何面向GenAI时代谋篇布局的。
Databricks和Snowflake加速收并购强化数据智能
Databricks通过收购打造Data+AI蓝图
Databricks将自己定位为一家Data+AI公司,以简化数据处理和人工智能应用为使命,因其应对现代数据基础设施挑战而备受关注。
2023年,Databricks 推出了数据智能平台(Data Intelligence Platform),这是Lakehouse平台(Data Lakehouse Platform)的下一个演进版本,也是其实现愿景的关键。在官网对数据智能平台的介绍中,Databricks写到:“每个行业的赢家都将是数据和人工智能公司。从 ETL到数据仓库,再到生成式AI,Databricks 可帮助您简化并加速实现数据和人工智能目标。”
最近几年,Databricks通过不断收购来打造Data+AI蓝图:
2023年5月,Databricks 宣布收购了 Okera,这是一个专注于 AI 的数据治理平台。Okera 使用了一个AI驱动的系统,能够自动发现和分类个人身份信息,同时采用了一个无代码界面。此次收购使得Databricks能够公开更多API,供其数据治理合作伙伴使用,从而为客户提供解决方案。
2023 年 6 月,Databricks 达成了以 13 亿美元收购MosaicML的协议。此次收购增加了一个平台,使用户能够使用自己的专有数据训练和保护生成式AI模型,这与完全使用公共数据训练的模型不同,这些模型可以为商业决策提供信息。
2023 年 10 月,Databricks 宣布以1亿美元收购Arcion。该供应商的工具增加了数据摄取和数据复制功能,可用于开发管道,为生成式AI模型和应用提供素材并对其进行训练。
2023年12月,Databricks收购了AI初创公司Einblick,以提高其生成式AI能力,进一步体现了对生成式AI的重视。
2024年6月,Databricks 宣布收购Apache Iceberg表格式背后的商业机构Tabular,为Databricks客户在其Lakehouse环境中享受更多的统一性和更少的不兼容性铺平了道路。
2025年2月,Databricks 收购AI驱动的BladeBridge以简化数据迁移。此次收购旨在帮助企业从亚马逊Redshift、Snowflake和Teradata等20多个数据仓库轻松迁移到Databricks SQL。与传统迁移工具不同,BladeBridge使用大型语言模型(LLM)在转换前自动执行代码评估。通过优化这一过程,可以更快、更高效地将数据迁移到Databricks SQL中。
Snowflake通过收购打造AI数据 云
2024年2月,Snowflake宣布更换CEO,Frank Slootman辞去Snowflake公司CEO职务,仍将继续担任董事会主席,此前担任人工智能高级副总裁的Sridhar Ramaswamy被任命为新CEO。
Ramaswamy是2023年随着Neeva被收购而加盟Snowflake,并一直担任该公司的人工智能高级副总裁。Slootman在一份声明中说:没有比Sridhar更好的人选来带领Snowflake进入下一个发展阶段,并抓住人工智能和机器学习领域的机遇。
2021年Snowflake推出原生的AI与机器学习工具Snowpark,支持客户于Snowflake平台上使用大型语言模型与AI工具。
与大多数数据公司一样,Snowflake 也在押注生成式人工智能。2024年4月,该公司推出了Arctic,这是一种专家混合(MoE)LLM,客户可以使用他们存储在Snowflake中的数据来训练模型。然后,这些模型可用于构建 GenAI 应用程序,如聊天机器人和 AI 协同机器人。
Snowflake正在提的一个概念是AI数据云(AI Data Cloud),据官网介绍,AI Data Cloud是一个统一的平台,Snowflake 的 AI 数据云由支持各种数据、AI 和应用程序工作负载的平台功能以及内容(数据集、模型和应用程序本身)组成,这些功能可在 AI 数据云中本地共享和使用。
以下是Snowflake近几年的一些收购:
2022年3月,Snowflake 收购了Streamlit,Streamlit 是一个应用程序开发 Python 框架,专门用于简化 ML 工程师和数据科学家的网络开发。收购后,Streamlit与Snowflake的集成将使开发人员能够使用 Python 创建应用程序,使用 Snowflake 中的数据,在 Snowflake 的安全和管理平台上部署和运行这些应用程序,并与业务团队共享其应用程序,以进一步释放数据和 ML 模型的价值。
2022年8月,Snowflake 收购了 Applica,Applica一家专门从事复杂文档解码和自动化的公司,即基于最前沿的深度学习方法处理非结构化数据。他们专门提供由AI驱动的文档自动化解决方案。通过此次收购,Snowflake将增强其处理“非结构化数据 ”的能力。
2023年1月,Snowflake收购Myst AI,Myst AI平台是专为时间序列用例和预测而设计的,它采用独特的工作流程,允许团队在几分钟内部署预测模型。所有这些都由人工智能驱动。此次收购的重点是在 Snowflake 中本地构建 ML 可扩展性,这将有助于在 Snowflake 中引入时间序列预测功能,并继续推进该平台的发展。
2023年1月,Snowflake收购SnowConvert,SnowConvert 是将数据库有效迁移到云的主要工具套件。这套工具来自 Mobilize.Net。SnowConvert 可自动执行代码转换过程,以便更快地在 Snowflake 上运行。这不是“查找和替换 ”转换,而是在 Snowflake 中对功能等同的代码进行完整的语义重构。通过收购 SnowConvert,Snowflake 将为企业提供无缝访问工具包的途径,使企业更容易迁移数据并开始利用数据云。
2023年2月,Snowflake收购隐私保护平台LeapYear,借助 LeapYear,Snowflake 可以解决这些敏感用例和差异化隐私增强问题,包括通过数学证明的隐私保护进行私人数据协作。LeapYear 的技术和 Snowflake 结合将使大型企业能够打破数据孤岛,建立数据伙伴关系,并加速机器学习的应用。
2023年5月,Snowflake收购AI驱动的搜索引擎Neeva,强化生成式AI搜索能力,其创始人Sridhar Ramaswamy是谷歌前高管。此次收购后,Ramaswamy加盟Snowflake并领导着该公司的AI战略。
2023年10月,Snowflake宣布有意收购数据科学工具Ponder,这次收购旨在通过利用Ponder在Modin项目上的专业知识,丰富Snowflake的生态系统,进一步提升其平台上的Python功能,优化Snowflake的数据科学生态,提升大规模数据处理与分析效率。
2023年10月,Snowflake收购Sisu,Sisu 是自动化分析领域的重要参与者,它能够生成有关趋势和异常情况的洞察,然后通过不同群体之间以及不同时间的比较来解释这些洞察。
2024年11月,Snowflake宣布收购开发多模态数据渠道平台的Datavolo,Datavolo主要开发可自动管理不同组织之间的结构化及非结构化数据的平台,帮助企业无缝地将数据从云和本地移动到 Snowflake 的数据云。通过将 Datavolo 引入 Snowflake,扩大 Snowflake 捕获的数据生命周期的范围。
其他收并购
IBM收购DataStax
2025年2月,IBM宣布收购Apache Cassandra的商业公司DataStax,以增强其数据库和生成式AI能力。2020年5月,DataStax推出了Astra DB,这是Cassandra的完全托管版本,在云端为客户提供NoSQL数据库的可扩展性和可用性。后来,该公司开始将业务扩展到NoSQL数据库之外。2021年,DataStax推出了Astra Streaming,与Apache Kafka竞争。
2023年,DataStax收购了一家帮助自动化繁琐的特征工程任务的AI初创公司Kaskada,并将其软件以Luna ML品牌开源。同年,DataStax通过在Astra DB中推出向量存储,进一步增强了其生成式AI能力。然后在2024年,DataStax通过收购Langflow进一步丰富了其RAG解决方案,Langflow开发了一个用于构建RAG管道的开源框架。
DataStax通过自建和收购积累的所有能力显然引起了IBM的注意,IBM看重DataStax如何在单一产品下构建其非结构化数据管理能力。IBM数据和人工智能业务总经理Ritika Gunnar表示,IBM希望将DataStax的开源产品与其watsonx产品组合(特别是Apache Iceberg、Apache Spark、Velox和Presto)相结合,帮助客户利用大量非结构化数据。
Gunnar指出,AI所需的数据基础设施远不止向量,许多类型的数据如JSON、时间序列、键值、表格、图等需要结合在一起,才能使数据摄取和搜索变得相关且准确。通过将它们构建成一个简化且可扩展的解决方案(得益于生成式AI),用户无需将多种数据表示拼凑在一起,就能从他们的企业数据中获得价值。
MongoDB收购Voyage AI
2025年2月,MongoDB宣布收购Voyage AI,旨在通过其先进的嵌入和重新排序模型,优化企业在AI应用程序中的检索增强生成(RAG)能力。Voyage AI所开发的模型,通过引入新的嵌入技术来增强向量搜索,能够更准确地捕捉语义信息,并通过细化搜索结果来提升检索精度,从而有效降低AI应用中的幻觉现象。
据悉,MongoDB此次收购将为企业带来更快的价值实现时间和对扩展AI应用程序的更大信心。集成将分阶段进行,第一阶段将保持Voyage AI的当前API以及通过AWS和Azure市场的广泛可用性。第二阶段,MongoDB将把Voyage AI的功能嵌入到MongoDB Atlas中,首先提供自动嵌入服务来处理嵌入生成,随后将推出原生重新排名功能,以提高检索准确性。第三阶段,MongoDB将引入具有增强多模式功能的高级AI驱动检索,并计划推出指令调整模型,允许开发人员使用简单的提示来优化搜索行为。
Cloudera收购Octopai
2024年11月,企业数据云解决方案提供商Cloudera已同意收购Octopai的数据血缘和目录平台,以增强其数据目录和元数据管理能力。Octopai以其数据发现、血缘、映射和编目自动化解决方案而闻名。Cloudera的目标是利用Octopai平台将分散和复杂的数据转化为统一和可信的基础,以促进战略决策、创新和合规性,从而解决目前企业数据过于分散的问题。
Confluent收购Immerok
2023年1月,Confluent宣布已经签署了一份最终协议,收购Apache Flink的主要贡献者Immerok,收购后的Kafka+Flink组合将在实时化发展的现代数据栈中扮演更重要的角色。
位于加州山景城的Confluent公司开发了最受欢迎的Kafka商业版本。Confluent联合创始人兼首席执行官Jay Kreps说,Flink越来越受欢迎,Confluent客户的采用率也越来越高,这也是这次收购的决定因素。
小结:收并购整合或成常态
数据是AI的基础,AI是数据的应用,新的AI技术让数据长出智能和洞察,产生价值。Data、AI、云,让企业对更实时的智能洞察有了更大的需求,也为实现实时智能提供了必要的技术支撑。收并购是整合资源非常有效的方式,也是一个成熟市场的常态,顺着这个思路下去,面向GenAI时代,围绕着“Data+AI”、云和实时分析,未来会有更多的收并购到来。