数据库 频道

IBM宣布收购DataStax,以增强其数据库和生成式AI能力

2月25日,IBM宣布有意收购DataStax,后者是Apache Cassandra数据库的长期支持者,并且近期已将业务扩展到流数据和生成式AI领域。IBM提到,DataStax具备管理非结构化数据的能力,通过其向量数据库能力开发检索增强型生成(RAG)解决方案。

Apache Cassandra最初于2008年由Facebook开发,用于存储其网站上用户生成的大数据,以满足这家新兴社交网络对高度可扩展、容错数据库的需求。Facebook是大数据生态系统早期的重要用户和创造者,它在Apache Hadoop和HBase(另一种NoSQL数据存储)以及Apache Hive(Facebook创建,使Hadoop看起来像关系数据库)等非关系技术的基础上构建了其社交媒体帝国。(Facebook最终回归使用关系数据库,特别是Postgres,但这是另一个故事。)

Cassandra(从技术上讲是一种宽列存储)于2010年成为Apache软件基金会的顶 级项目。同年,Jonathan Ellis和Matt Pfeil在得克萨斯州奥斯汀共同创立了一家名为Riptano的公司,并很快将其更名为DataStax。

起初,DataStax遵循典型的商业开源业务模式,提供名为DataStax Enterprise(DSE)的Apache Cassandra企业版。到2014年,该公司已迁至加利福尼亚州圣克拉拉市,吸引了包括联邦快递、Capital One和Verizon在内的《财富》500强企业客户。该公司以8.3亿美元的估值筹集了1.06亿美元的风险投资,并计划在2015年或2016年前后进行首次公开募股(IPO)。

然而,这个IPO从未发生,因为MongoDB在NoSQL领域占据主导地位,并于2017年上市。2020年5月,DataStax推出了Astra DB,这是Cassandra的完全托管版本,在云端为客户提供NoSQL数据库的可扩展性和可用性优势,但无需承担管理责任(像许多分布式系统一样,Cassandra的管理可能很困难)。同年晚些时候,它发布了K8ssandra,这是在该资源管理器上运行的数据库的开源版本。

很快,该公司开始将业务扩展到NoSQL数据库之外。2021年,DataStax推出了Astra Streaming,这是一个基于Apache Pulsar的事件流平台,Apache Pulsar是一个发布和订阅(pub-sub)数据平台,与Apache Kafka竞争。2023年,DataStax收购了一家帮助自动化繁琐的特征工程任务的AI初创公司Kaskada,并将其软件以Luna ML品牌开源。

2023年,DataStax通过在Astra DB中推出向量存储,进一步增强了其生成式AI能力。向量存储已成为构建检索增强型生成(RAG)方案的关键工具,以提高生成式AI应用中大型语言模型(LLM)输出的准确性。然后在2024年,DataStax通过收购Langflow进一步丰富了其RAG解决方案,Langflow开发了一个用于构建RAG管道的开源框架。

(Laborant/Shutterstock)

DataStax通过自建和收购积累的所有能力显然引起了IBM的注意。蓝色巨人(IBM的别称)在一定程度上依靠其watsonx AI产品来振兴业务,在宣布收购的新闻稿中提到了Apache Cassandra、Apache Pulsar、Langflow和OpenSearch(Elasticsearch和Kibana的一个分支)等开源项目。

IBM特别欣赏DataStax如何在单一产品下构建其非结构化数据管理能力。虽然它没有提及DataStax的超融合数据平台(HCDP)的名称,但显然IBM希望利用这项技术帮助客户将非结构化数据转化为成功的AI应用。

IBM数据和人工智能业务总经理Ritika Gunnar在一篇博客文章中表示:“根据IDC的数据,非结构化数据是一座尚未开发的商业智能宝库,在 2024 年,它占企业所有数据的 93%。在生成式AI应用中利用这些数据的价值至关重要。但要做到这一点,企业首先必须将混乱的数据转化为有序的。”

据Gunnar介绍,IBM希望将DataStax的开源产品与其watsonx产品组合(特别是Apache Iceberg、Apache Spark、Velox和Presto)相结合,帮助客户利用大量非结构化数据。

“AI所需的数据基础设施远不止向量,”Gunnar写道,“许多类型的数据——JSON、时间序列、键值、表格、图——需要结合在一起,才能使数据摄取和搜索变得相关且准确。通过将它们构建成一个简化且可扩展的解决方案(得益于生成式AI),用户无需将多种数据表示拼凑在一起,就能从他们的企业数据中获得价值。”

在DataStax首席执行官Chet Kapoor自己的博客文章中,他讨论了自2020年以来DataStax和IBM如何携手使用开源软件(OSS),包括在IBM OpenShift平台上部署DataStax产品。

“我们尊重IBM在开源软件和开源公司方面所表现出的领导力和管理能力,像Red Hat和其他公司一样,这些公司已在IBM找到了归宿,我们很高兴成为一家理解开放力量的公司的一部分,”Kapoor写道,“凭借我们的技术和IBM的watsonx.data(其混合、开放的数据湖仓),我们将能够将向量和AI搜索带到整个数据资产中,并使IBM的能力可供每位开发人员使用。”

交易预计将于第二季度完成,交易条款未予披露。DataStax在2022年6月的最新一轮融资中估值为16亿美元。该公司已通过多轮融资筹集了3.426亿美元。据IBM称,该公司拥有数百家付费客户。

0