数据库 频道

当向量走进所有数据库,该怎么选?

随着客户逐渐了解构建和运行生成式AI应用程序的要求,他们发现有一个重要的因素能让这一切发挥作用:向量数据库。这是推动采用这种特殊类型数据库的首要因素。

虽然围绕 GenAI 的炒作似乎有些消退,但人们对这项新生技术仍然充满兴趣。

例如,波士顿咨询公司(Boston Consulting Group)最近的一项调查发现,IT 领导者预计未来一年在 GenAI 和其他形式的机器学习方面的支出将增加 30%,而毕马威会计师事务所(KPMG)3 月份的一项调查则得出结论,97% 的企业领导者计划在未来 12 个月内投资 GenAI。

GenAI的发展势头也有助于提升人们对向量数据库的兴趣。根据 DB-Engines 的数据,在过去 13 个月中,向量数据库一直是最受欢迎的数据库类别。

向量数据库的发展趋势丝毫没有减弱的迹象。Gartner 在一年前预测,到 2026 年,将有 30% 的公司使用具有基础模型的向量数据库,而 2022 年这一比例仅为 2%。

数据库行业为应对这一需求增长,正在加紧生产向量功能,既包括独立的原生向量数据库,也包括在其他数据类型中支持向量的多模型数据库。

虽然两种类型的向量数据库各有利弊,但多模型数据库的发展似乎相当迅速。Forrester 公司的一项新研究发现,到 2026 年,75% 的传统数据库(包括关系型数据库和 NoSQL 数据库)将在其产品中加入向量功能。

来源:DB-Engines.com

Forrester 首席分析师 Noel Yuhanna 在题为 “向量数据库大爆发 ”的报告中写道:“一些企业偏爱这些数据库,因为它们可以更广泛地集成向量和非向量数据,实现混合搜索,并充分利用现有的数据库基础设施。”此外,一些多模型数据库现在免费提供向量功能,作为现有许可证的一部分,这进一步增强了它们对企业的吸引力。

客户决定使用多模型数据库还是原生向量数据库有几个因素。Forrester 认为,如果应用需要 “卓越的性能和......低延迟访问向量数据”,那么可能需要使用向量数据库。

使用案例的不同也会导致客户选择不同的数据库。传统数据库擅长为应用程序、报表和商业智能提供支持,而原生向量数据库则专为 GenAI、搜索和检索增强生成 (RAG) 应用程序而设计。

拥有大量高维复杂数据的客户使用原生向量数据库可能会更好。Forrester 还指出,原生向量数据库在处理非结构化数据(文本、文档、图像、视频、音频)、为复杂数据编制索引以及与机器学习工具集成方面也更胜一筹。

不过,传统数据库本身也有一些优势。Forrester 认为,传统数据库旨在支持事务,而这在原生向量数据库中并不是一个真正的概念。它们通常还能更好地支持第三方工具。如果想用 SQL 访问数据,传统数据库是最好的选择;而原生向量数据库大多通过 API 访问。多模型数据库的优缺点介于两者之间。

来源:Forrester 2024 年 7 月报告

“传统数据库针对结构化数据的精确匹配进行了优化,而向量数据库则不同,它擅长对复杂的高维数据执行高级相似性搜索,”Yuhanna 和公司在报告中写道。“例如,向量数据库可以在几秒钟内通过比较各自的向量,快速找到数据库中与给定图像在视觉上相似的所有图像。向量数据库的独特优势在于能够支持专门的向量索引,便于快速处理请求,并提供查询复杂数据所需的高性能。”

Forrester 认为,原生向量数据库如何帮助客户在向量嵌入中进行存储、索引和搜索尤为重要。原生向量数据库具有先进的索引和散列技术,“包括K维树、分层导航小世界(HNSW)图、定位敏感散列(LSH)、Faiss和基于图的索引,”分析师写道。

向量数据库最常见的一些用例包括 RAG、图像相似性搜索、推荐引擎优化、客户体验个性化、异常检测、搜索引擎和欺诈检测。Forrester 建议使用原生向量数据库或多模型数据库,具体取决于每个客户特定用例的特殊要求。

“如果您只需要低延迟访问大量(数十 TB)向量数据,那么请选择本机向量数据库。”该公司写道,“但是,如果您的应用需要集成向量和非向量数据,则应选择具有向量数据功能的多模型数据库。”

尽管可扩展性和性能在原生与多模型的讨论中一再被提及,但人们对向量数据库在高端应用中的有效性仍存有疑问。

“Forrester 与客户的交流表明,大多数向量数据库尚未展示出高端的可扩展性和性能,尤其是在处理数十亿向量或数百 TB 数据时,”该公司写道。“为了获得最 佳性能,请确保向量使用优化的索引和微调的搜索算法,并在适用的情况下利用 GPU 和扩展架构。”

0
相关文章