IT168特别策划了《向量数据库选型指南》,笔者通过对话一线技术专家,全面剖析向量数据库的最新发展动态与核心技术优势,分享各个行业实际应用中遇到的挑战及成功案例,为用户在选型过程中提供有力支持。
本期,我们有幸采访到了拓数派向量数据库负责人邱培峰,针对向量数据库的技术路线选择,以及PieCloudVector有哪些独特的优势,向量数据库未来的发展趋势,以及选型建议等问题进行了深入交流。
▲拓数派向量数据库负责人 邱培峰
嘉宾介绍:邱培峰目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验,在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发,并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心开发和性能优化等实践经验。
向量数据库选型三大关键点
向量数据库作为专为向量搜索而设计的数据库,其学术研究和产业实践均取得了显著进展。然而,随着大语言模型技术的突破,与自然语言紧密相关的向量数据量呈指数级增长,这不仅加剧了对高效搜索的需求,还衍生出对向量与标量数据混合管理的新挑战。
传统数据库在应对向量与标量数据混合查询时显得力不从心,无法充分适应多模态数据处理和高效的相似度搜索复杂场景,难以满足企业日益增长的业务需求。而向量数据库擅长容纳图像、音频、文本等多模态数据,并通过将这些数据映射为向量表示,利用向量相似度进行关联和检索。
邱培峰认为,“在选择向量数据库时,用户需要综合考虑向量算法、通用数据管理和配套工具生态三个方面。”同时,还需要结合具体的业务需求和技术要求进行评估和测试,以选择最适合自己的数据库产品。此外,随着技术的不断发展,还需要关注数据库产品的更新和升级情况,以确保其能够持续满足业务需求。
向量算法优化
向量搜索算法作为向量数据库的核心功能,扮演着举足轻重的角色,不同算法依据特定场景和性能需求各有千秋。用户在评估时,核心关注点通常集中于几个关键指标:每秒查询量(QPS)、召回率(即准确度)、CPU与内存资源消耗,以及GPU加速支持。
这些性能指标之间往往需要取舍,单一算法无法在所有维度上都达到最优。因此,提供更多样化的算法选项和细致的参数调节能力至关重要,这有助于用户在各项性能指标间灵活找寻最 佳平衡点,进而拓宽数据库的适用场景和提升其泛用性。
通用数据管理强化
通用数据管理是向量数据库不可或缺的组成部分,关键在于有效整合向量数据及其伴随的元数据,如原始文本、创建时间、用户标识、来源路径或url等,这些附属信息统称为标量数据,对向量的搜索最终是要反映到这些关联信息上面。
数据一致性、操作原子性、混合查询、多用户、权限管理等是衡量一款向量数据库通用数据管理能力的关键指标。
配套工具生态完善
配套工具生态系统直接关乎向量数据库的用户友好度与实用性。一些关键的优化点涵盖了SDK开发、数据导入导出、备份恢复、数据可视化,以及与大语言模型生态的集成等方面。
向量数据库的两种技术流派
当前向量数据库技术领域分化为两大流派:一方是以Pinecone、Zilliz和Chroma为代表的专有向量数据库,它们凭借卓越的向量检索速度著称,但面对复杂多维的通用数据处理时,灵活性略显不足。
另一方则是传统数据库如PostgreSQL,通过集成如pgvector之类的扩展模块,增强了处理向量数据的能力,尽管在通用性上有所提升,却难以匹敌专有向量数据库在性能和扩展性上的表现。
实际上,前者侧重于向量搜索算法为核心,围绕其构建功能完善的生态系统,诸如Pinecone与Zilliz,它们多基于faiss这一强大开源库,性能表现直接受益于faiss的优化。后者则是在成熟的SQL数据库基础上,如PostgreSQL,引入向量搜索功能,pgvector即为典型例证,以此实现向量化数据的便捷查询。
在设计PieCloudVector时,拓数派力求融合两大技术方向之长,独辟蹊径。邱培峰指出,“我们选择将faiss组件与自研的基于postgres内核的关系型数据库对接起来,这样既能达到pinecone等产品同级别的性能,又能有基于postgres的通用数据库能力。”
PieCloudVector为大模型提供长期记忆
拓数派秉承“数据计算,只为新发现”的使命,其大模型数据计算系统实现了AI数学模型、数据与计算的无缝融合,共同推动社会经济效益的持续增长。PieCloudVector作为拓数派大模型数据计算系统的核心计算引擎之一,是大模型时代分析型数据库的升维之作,它专为多模态大模型AI应用而生。
在邱培峰看来,“相较于传统数据库,PieCloudVector突破了技术瓶颈,实现了向量化存储和计算资源的弹性扩缩,提高了易用性和性能,增强了元数据变更功能,解决了数据一致性问题,并克服了安全性、可靠性和在线性方面的技术难题。”
据悉,PieCloudVector全面兼容SQL:2016和PostgreSQL生态,支持行存和行列混存。基于eMPP(弹性大规模并行计算)架构构建,PieCloudVector不仅支持通过SQL接口进行非结构化数据检索,还能与结构化数据进行关联分析。
功能方面,PieCloudVector基于PostgreSQL内核和faiss算法库打造,拥有完整的ACID数据管理能力,支持标量与向量的混合查询。它支持主流的近似最近邻(ANN)算法和向量编码或压缩算法,支持SIMD/GPU加速,并兼容langchain等大模型工具生态。
PieCloudVector不仅支持灵活的单节点部署,更可轻松扩展至分布式架构。在分布式部署中,每个节点承载数据集的一个子切片,搜索结果经过跨节点汇总与重排序,确保返回全局最 优解。这一架构设计使PieCloudVector能够随着节点数量的增加,线性扩展其数据处理能力,轻松应对海量数据挑战。
性能调优方面,PieCloudVector提供了灵活的参数调整机制,特别关注于向量搜索算法参数的优化。以ivf算法为例,用户可根据需求调整总分区数和每次搜索分区数这两个核心参数。低分区数有助于缩短索引创建时间,而提高搜索分区数则能增强单次搜索的召回率(recall),但可能伴随搜索时间的增加。
数据安全方面,拓数派团队还为PieCloudVector量身打造了透明加密功能。这一功能使得数据在写入磁盘时即自动完成加密,无需用户额外操作,从而大大简化了数据加密的流程。透明加密功能不仅保证了数据的机密性,还确保了即使数据在存储介质上被非法获取,也无法被轻易解密和读取。
PieCloudVector凭借其卓越的性能和广泛适用性,已成功在各行各业的大模型领域中落地应用,特别是在金融大模型领域展现了显著的优势。其中,东吴证券作为PieCloudVector的首个成功落地案例,为用户深入理解市场需求、优化产品设计和功能提供了宝贵的经验。
写在最后
随着技术的演进和市场需求的变化,邱培峰预见到,向量数据库的未来将朝向一个更为全面和智能的方向发展,即直接支持文字搜索的AI数据库。基于此,拓数派正积极探索集成大模型和内置向量转换等前沿技术,以实现文字到向量的自动转换和高效搜索。
展望未来,拓数派将持续关注市场和技术的发展动态,不断探索和创新,聚焦数据库在多模态大模型系统中的应用场景,并计划让PieCloudVector在这一领域进行深入探索。通过优化PieCloudVector对多模态数据的处理能力,为用户提供更为丰富和高效的AI应用体验。