数据库 频道

完善产品拼图,GBASE南大通用发布向量数据库

在AIGC所引发的新一轮AI浪潮中,向量数据库成为资本的宠儿,引发了广泛关注,越来越多的数据库厂商布局向量数据库。

日前,在刚刚结束的第二十五届中国国际软件博览会·中国数据库产业峰会上,南大通用发布了GBase向量数据库GBase Cloud Vector DB,也带来了他们对市场的观察、思考和实践。

为什么需要向量数据库?

为什么需要向量数据库,可以从供需两端分别来看。

首先在需求端,正如南大通用董事长丁明峰所言,随着多元化场景发展,单一数据库不能解决所有问题,每一类应用场景都需要有一种数据库来支持,新兴业务场景催生了向量数据库的出现。

向量数据库可以看作是一种新型的NoSQL数据库,几年前,向量数据库便已出现,目前在机器学习和人工智能领域正变得流行。

向量数据库与传统的关系型数据库以及一些NoSQL数据库都不同,比如PostgreSQL,最初是用来存储行和列的表格数据,MongoDB,它以JSON文档存储数据,Neo4j,以点、边和属性存储图数据,挖掘关联关系。而向量数据库,是专门用来存储和查询向量(Vectors)的数据库。向量数据库做的是模糊匹配,输出的是概率上的最近似答案,比较接近于机器学习中的无监督聚类,这是向量数据库与其他数据库一个最大的不同。

向量数据库早期应用于搜索引擎和推荐系统,推荐系统使用向量数据库来存储、索引、搜索和检索非结构化数据的大量数据集,提高搜索、推荐的准确性和可用性。大模型LLM的出现扩展了向量数据库的应用场景,也让向量数据库变得格外火热。

目前主流的大模型如Transformer、Clip、GPT等都是预训练模型,训练的语料数据主要是文档、图片、音视频等非结构化数据,对于训练模型本身,这些非结构化数据就需要预处理转化为向量数据,然后进入模型,在底层还有历史海量数据进行向量计算,涉及相似问题查询,相似问题最优答案推荐,向量化数据的存储和计算需要一个向量数据库来支撑。

大模型走入千行百业需要更多的领域、行业大模型,企业出于数据安全、合规等多方面考虑,也会部署自己的私有大模型。向量数据库对于训练这些专有大模型是必不可少的,有专家指出,向量数据库在新一代AI基础设施中扮演了非常关键的角色。

需求的存在促使资本和厂商布局向量数据库,南大通用发布向量数据库也有自己的思考。丁明峰指出,在多元化场景发展趋势下,南大通用的发展策略是“聚焦数据库核心技术,提供场景化数据库解决方案。”数据库技术未来的发展将围绕助力用户降本增效、护航数据要素安全流通、赋能新兴业务场景三大目标,十二个细分技术方向持续迭代。其中,AI大模型催生的向量数据库自然成为研发重点,GBase Cloud Vector DB的推出进一步完善了其产品栈和场景覆盖能力。

GBase Cloud Vector DB有何独到之处?

伴随着大模型的火热,越来越多的厂商布局向量数据库,纵观市场上的向量数据库产品整体可以分为两大类:一类是原生向量数据库,比如Pinecone等多以创业公司为主;另一类是在原有数据库基础上添加插件提供向量检索能力,比如PG内置的 pgvector 提供向量搜索。

据悉,GBase向量数据库GBase Cloud Vector DB是在GBase 8a集群基础上实现,具有GBase8a的全部功能,使用统一的开发接口、用户权限、分布式执行计划、数据计算、存储服务等,是继承GBase 8a集群的高可用、高可扩展性、高安全性以及运维管理能力的分布式向量数据库。

具体来看,其新增的向量数据库功能有:

  • 向量数据存储:增加向量数据类型(array),在GBase 8a集群的表中可以创建一个或多个向量数据类型字段,存储向量数据;支持将原始数据(文本、图片)的存储位置信息(URI)记录到表中;

  • 向量检索:实现余弦距离、欧式距离、内积等距离计算函数,用于计算向量间的距离;向量检索时,返回相似度高(距离短)的向量;

  • 向量索引:实现余弦距离向量索引、欧式距离向量索引、内积向量索引,加速向量查询性能;

从架构上来看,GBase Cloud Vector DB采用存算分离架构,各层均可独立扩展。协调服务层拥有express引擎和向量引擎,存储服务层增加了向量类型数据和索引的存储文件,计算服务层增加了向量类型计算支持和向量类常用索引检索算法。

维度支持是衡量向量数据库的一个重要指标,GBase Cloud Vector DB能够处理大规模高维度的向量数据,支持2048维度以上浮点型向量数据的存储与近似检索。此外,GBase Cloud Vector DB支持结构化数据、向量数据统一存储,统一访问接口,支持关系模型与向量的多模联合分析。

南大通用的专家指出,向量数据库可以应用于自然语言处理、图像检索和视频分析、大模型支持、推荐系统、欺诈检测、基因检测等场景。比如在大模型支持方面,GBase Cloud Vector DB可以和大语言模型LLM配合使用,辅助大模型生成更加准确的答案。在推荐系统方面,GBase Cloud Vector DB通过向量引擎可以分析用户偏好和内容特征,实时生成个性化且高度相关的推荐。图像检索和视频分析方面,GBase Cloud Vector DB受益于库内向量表示和相似性的搜索功能。通过识别高维数据的相似性和模式,可以有效处理图像搜索、对象检测、人脸识别等。

在AIGC时代,向量数据库扮演着非常关键的基础设施角色。目前,AIGC、大模型的落地更多还在探索阶段,向量数据库将随着新一代AI的不断落地而壮大,与其他数据库一起助力企业走向智能化。随着GBase Cloud Vector DB的推出,南大通用为企业提供了一个新的选择。

0
相关文章