导语 :近期,向量数据库领域风起云涌,一系列重大事件接连发生,引起了业界的广泛关注。
先是某科技巨头宣布推出全新的向量数据库产品,这款基于全导航图技术的黑马,在权威评测榜单ANN-Benchmarks上大放异彩,一举包揽6项数据集评测的桂冠;紧接着,又传出某知名电商平台通过引入向量数据库技术,成功提升了推荐系统的准确性和用户满意度。这些事件无疑将向量数据库推向了聚光灯下,成为了数据库领域的新宠。
那么,用户面对不断推出的向量数据库产品,以及他们眼花缭乱的性能优势广告时,如何选择适合自己业务需求的解决方案?为了解答这些问题,我们特别采访了南大通用向量数据库的负责人南大通用8a产品经理白军奎,一起探寻向量数据库背后的“黑科技”与“避坑”之旅。
采访嘉宾:白军奎,南大通用8a产品经理,18年数据库从业经验,一直战斗在国产数据库一线,先后从事数据库的研发、测试、技术支持、L2支持经理、产品经理等工作。
他向我们透露,虽然向量数据库的技术实现门槛对专业数据库厂商来说并不算特别高,例如要具有高维度支持、相似度搜索、支持多个向量字段、快速插入和更新、多模型联合分析和与大模型结合等等能力。但要将其应用于实际场景中并发挥出最大价值,却需要不断“避坑”,从产品的工程化、产品化,到后续的功能完善、场景适配、性能优化、稳定性提升等方面,每一步都充满了挑战。
“不同的应用场景对数据库的性能、稳定性、扩展性等方面都有着不同的要求,这就需要我们根据客户的场景化需求完成这些能力要求的开发优化。”他解释道,“同时,随着数据和业务的不断增长和变化,如何保证数据库的持续稳定运行、满足新业务场景要求也是一个需要不断研究和解决的问题。”
尽管如此,南大通用作为有着丰富数据库产品经验的厂商,已经准备好了一套完善的解决方案来帮助客户应对这些挑战。他们通过与客户进行深入的沟通和交流,了解具体需求和场景,然后结合自身的技术实力和经验,提供定制化的数据库解决方案。
01技术路线和架构设计思考
当前,向量数据库的技术路线主要分为两种:一种是在非传统关系型数据库上构建专用向量数据库,另一种是基于通用关系型数据库增加向量数据库的支持能力。南大通用选择了后者。
“我们选择了在通用关系型数据库基础上增加向量数据库的支持能力,这主要基于我们深厚的OLTP、OLAP关系型数据库研发积累,以及对非结构化数据管理、分析领域的深入理解。”白军奎解释道。
这种技术路线的优势在于,它能很好地复用已有的SQL语法、开发接口、存储优化以及分布式计算能力。同时,向量数据库天然具备关系型运算能力,能够实现向量计算和关系运算的算法融合,为用户提供更高效、更灵活的解决方案。
在GBase Cloud Vector DB的架构设计中,南大通用采用了存算分离的架构。这种架构能够实现资源独立扩展,计算资源可以随需扩展,无需进行数据重分布,从而大大提高了系统的可用性和扩展性。
“存算分离架构的设计初衷主要是为了解决传统存算一体架构下的一系列问题,如单点故障、数据重分布性能损耗、数据冗余等。”白军奎表示。在这种架构下,计算和存储资源可以独立扩展,不仅提高了系统的灵活性,还降低了成本。同时,不同计算资源可以共享同一份数据,减少了数据冗余和一致性风险。
此外,存算分离架构还带来了更高的系统可用性和稳定性。由于避免了单点故障导致的服务降级,用户可以享受到更可靠的数据服务。同时,资源的弹性扩展也使得用户可以根据业务需求灵活调整计算或存储资源,满足不断增长的数据处理需求。
02选型关注存算分离、易用性
在进行向量数据库选型时,用户应关注多个关键性能指标以确保其满足业务需求并具备高效、可靠的性能。
首先,考虑到向量数据的庞大量级,选择分布式、存算分离的向量数据库至关重要。这种架构能够提供弹性资源扩展,确保数据库能够轻松应对不断增长的数据量,并实现资源的高效利用。同时,存算分离的设计还能够实现数据共享存储,避免数据冗余,提高数据一致性。
其次,易用性是另一个关键指标。用户应优先选择采用标准SQL和开发接口的向量数据库,以降低开发使用难度,提高开发效率。这样的数据库能够提供更直观、更易于理解的操作方式,使开发人员能够更快速地掌握并运用数据库功能。
此外,支持向量数据和结构化数据联合分析也是一个明确的业务需求。用户应选择具备这一功能的向量数据库,以便能够同时处理和分析不同类型的数据,满足业务场景的多样化需求。
最后,高安全、高可靠、易管理的能力也是选型过程中不可忽视的因素。用户应选择具备完善的安全机制和可靠性保障的向量数据库,确保数据的安全性和可靠性。同时,易管理的数据库能够降低运维难度,提高运维效率,为用户带来更好的使用体验。
03写在最后
白军奎透露,现在GBase向量数据库已完成了产品化和发布,正在和合作伙伴进行向量数据库应用场景的探索。下一步是基于业务和市场牵引,与更多的大模型厂商、应用厂商等合作伙伴进行对接,形成细致的行业大模型应用工具和方案,为客户的大模型应用提供价值和支撑。
他强调,智能化运维和自动化优化将成为未来数据库发展的重要方向,而大模型技术将在这个过程中发挥关键作用。
具体来说,南大通用计划利用大模型技术,实现对数据库运行信息、操作审计信息和数据访问信息的全面采集和分析。通过这些信息,他们将能够针对不同业务场景、不同计算引擎和不同数据内容,采用最优的数据存储、计算和访问策略,从而大幅提升数据库的性能和效率。
此外,在数据应用方面,南大通用也计划引入大模型技术,对库内海量数据进行特征提取、数据使用协助、SQL审核和优化等操作。这将帮助用户更好地理解和利用他们的数据,同时提高数据查询和处理的准确性和效率。
南大通用正积极向数据云的方向演进和发展。计划采用云化的存算分离技术,以及元数据统一、计算调度统一、数据存储统一的湖仓一体技术,为用户打造一个坚实的数据云服务平台。通过这个平台,用户将能够轻松管理和利用自己的数据资产,满足各种业务需求。