大语言模型(LLM)革命已将向量数据库从晦涩难懂的搜索技术转变为人工智能成功的必备产品。但是,您应该寻找哪些向量数据库功能,哪些供应商正在创新?Forrester 公司的分析师最近深入研究了这一领域,并在一份新报告中给出了答案。
向量数据库旨在管理和处理一种称为向量嵌入的特殊数据类型,它是文字、文档、图像甚至声音的数字表示。向量数据库将这些嵌入索引并存储在一个多维空间中,允许用户或应用程序检索这些嵌入及其附近相似的其他嵌入。这种相似性搜索功能使用户能够获得比直接匹配关键字更好的搜索结果,并催生了所谓的 “人工智能搜索引擎”。
2022 年底,当 ChatGPT 向世界投下 LLM 炸弹时,人们很快发现了向量数据库的新用途。GenAI 用户发现,通过在运行时进行相似性搜索(作为提示工程或检索增强生成RAG过程的一部分),将一组源文档作为嵌入存储在向量数据库中,然后调用数据库来提供这些文档中的信息,他们可以大大提高聊天机器人、协同机器人以及由 ChatGPT 等 LLM 支持的其他形式的AI交互所生成回复的质量。
向量嵌入是对象的数字表示(Rajat Tripathi/Pinecone)
在 ChatGPT 之前,只有少数 “原生 ”向量数据库,如 Pinecone、Milvus 和Zilliz。但几乎在一夜之间,许多现有的数据库供应商都调整了自己的产品,使其也能存储、索引和处理向量数据,其中包括 Elastic、DataStax、Couchbase、MongoDB 甚至 Teradata。对于本来就具有多模态性质的 NoSQL 和关系数据库来说,增加向量数据类型是轻而易举的事情。
然而,随着向量数据库市场的爆炸式增长,用户也对采用向量数据库的最 佳方法产生了一些困惑。Postgres的pgvector插件是否足以满足我的GenAI需求?原生向量数据库有哪些优势是多模态数据库无法比拟的?这些向量数据库只能在云中运行,还是也可以在本地运行?
位于马萨诸塞州剑桥市的长期 IT 分析机构 Forrester 进入了我们的视线。在《2024 年第二季度向量数据库格局》报告中,Forrester 分析师 Noel Yuhanna 和他的几位同事深入研究了蓬勃发展的向量数据库市场,同时对 24 家供应商的向量数据库功能进行了分析。
向量数据库提供对多维搜索空间中索引向量嵌入的访问权限
Forrester 首先定义了向量数据库。“一种数据库管理系统,可为向量表示的数据提供存储、索引、处理和访问,以支持相似性搜索、RAG 应用程序、现代生成式人工智能/LLM 应用程序和基于向量的分析。”该公司指出。
“客户利用向量数据库支持客户体验、RAG 应用程序、图像相似性搜索、实时异常数据检测、优化推荐引擎和欺诈检测,”该公司继续说道。“尽管这一市场还处于初级阶段,但我们预计近期内各种用例将会激增。”
Forrester 认为,向量数据库市场主要分为两大块:原生向量数据库和多模向量数据库。
Forrester 认为,两大阵营的主要区别在于原生向量数据库具有更强的可扩展性,“尤其是在处理大量向量时”。与此同时,多模态向量数据库的主要优势在于它可以存储其他类型的数据,因此可能不需要两个或更多独立的数据库。
Forrester 表示,向量数据库在规模上面临的挑战尚未完全解决,高端数据库 “仍在发展之中”。“高端的规模和性能仍然需要相当大的努力,尤其是在支持数百亿数据点(向量)的时候。”
资料来源 Forrester 报告 “2024 年第二季度向量数据库格局”
Forrester 并未根据向量数据库处理标准向量数据库任务的能力对其进行排名(也许这将是即将发布的 Forrester Wave 的主题)。但它确实研究了向量数据库的一些新兴用例,这一点很容易了解(见上图)。
Forrester 表示,在过去的 12 个月里,向量数据库市场出现了大量的进入者,这使得观察者和客户应该密切关注市场动态。
例如,向量数据库的预期功能正在发生变化。分析小组表示,向量存储、索引和处理等核心功能正在增加更多先进功能,“包括增强的安全措施、优化的处理能力,以及与各种向量嵌入转换器和数据流引擎的无缝集成”。
另一个需要注意的问题是市场渗透。Forrester 表示,包括Data Fabric和Lakehouse在内的云数据平台也在采用向量功能,这可能会进一步扰乱向量数据库市场。
“这一趋势凸显了向无缝集成向量功能的综合数据管理解决方案的转变,有可能重塑专用向量数据库的格局。”Yuhanna和Forrester分析师写道。