对话 MyScale CTO汤林鹏：向量数据库的技术路线与选型策略-数据库专区

对话 MyScale CTO汤林鹏：向量数据库的技术路线与选型策略

作者：卢敏编辑：卢敏 2024-04-24 10:19 IT168网站原创

　　随着大语言模型（LLMs）的崛起，对话界面正逐渐融入我们的日常生活，从搜索引擎到代码生成器，再到数据分析工具，其身影无处不在。

　　在这一变革中，向量相似性搜索技术发挥着举足轻重的作用，为LLMs的性能提升注入了新的活力。然而，面对市场上琳琅满目的向量数据库产品，企业该如何选择？

　　我们IT168有幸采访到了 MyScale联合创始人兼 CTO 汤林鹏针对向量数据库的技术路线选择，以及 SQL + 向量列存数据库有哪些独特的优势，向量数据库未来的发展趋势以及选型建议等问题进行了深入交流。　　

▴ MyScale联合创始人& CTO 汤林鹏

　　平衡性能与通用性的技术选型新策略

　　在当今的数据库市场，众多产品争奇斗艳，各自为阵。面对这样的多样化选择，如何找到一种既具备高性能又满足通用数据需求的数据库技术，成为众多企业面临的挑战。在这方面， MyScale最初的数据库技术选型展现出了独特的特点和优势。

　　传统的专有向量数据库，诸如Pinecone、Zilliz、Chroma等，虽然向量检索性能优秀，但在处理复杂多变的通用数据时往往力不从心。而另一方面，传统数据库加上外挂模块如pgvector等，虽在通用性上有所弥补，但在向量性能上却难以企及专有向量数据库。在这样的背景下， MyScale敏锐地洞察到了市场的痛点，并决心打破这一僵局。

　　 MyScale选择了高性能的列存分析数据库 ClickHouse 作为基础进行改造。ClickHouse 处理大规模结构化数据的性能出色，在改造的过程中， MyScale对向量化的算法、系统以及SQL与向量的联合查询和存储进行了深入的优化，确保了在保持高性能向量检索和复杂查询的同时，也能够满足企业对通用数据的全面需求。

　　与传统的专有向量数据库和pgvector相比，汤林鹏透露，MyScale在综合性能、精度、数据密度和性价比等方面都实现了质的飞跃，提升幅度高达3~10倍。这些都是这些都是墨奇研发团队在算法和系统做了很多创新得到的成果。

　　汤林鹏坦言尽管在初期的选型过程中面临着重重挑战，但现在已经成功搭建起了集成向量数据库的基本框架。并在SQL数据管理和查询、数据类型支持、数据连接等方面积累了丰富的实践经验。

　　SQL和向量深度结合，核心优势凸显

　　谈到向量数据库MyScale的核心优势，汤林鹏最先提及的是SQL和向量的深度结合。传统数据库在处理结构化数据时表现出色，但对于文本、图像、语音等非结构化数据则显得捉襟见肘。现在我们可以通过向量化模型，将这些非结构化数据转换为语义向量，并在向量数据中统一管理、查询。MyScale不仅拥有强大的向量管理和查询能力，更通过深度整合SQL技术，使得用户可以使用熟悉的SQL语法来查询向量数据。这一创新性的结合为用户带来了前所未有的灵活性和便利性。

　　除了SQL与向量的融合优势外，MyScale在性能和性价比方面也表现卓越。其高数据密度设计使得在相同存储容量下，MyScale能够存储更多的数据，从而降低了企业硬件和运维成本。同时，MyScale在构建索引方面实现了大幅的速度提升。根据 MyScale提供的开源Benchmark数据显示，与同类产品相比，MyScale在构建索引时所需的时间大大缩短：同样上传1000万向量，用pgvector可能需要几个小时甚至是十几个小时，而MyScale只需要构建三十四分钟。这意味着用户可以更快地完成数据准备工作，将更多精力投入到数据查询、分析和挖掘中。

　　此外，MyScale还支持任意过滤比例的查询功能。在处理海量向量数据时，用户往往需要根据实际需求，利用结构化、字符串等属性对数据进行过滤和筛选，再进行近似向量查询。MyScale提供了灵活的过滤查询功能，使得用户可以根据不同的业务和数据模型进行过滤查询，实现高速高精度的混合信息检索。这一特性对于需要处理大规模复杂数据集并保持高精度、高性能查询的企业来说具有重要意义。

　　在 MyScale不断创新和完善的过程中，他们还将关键词倒排表功能引入到了产品中。关键词倒排表是搜索引擎中常用的一种数据结构，它能够帮助用户快速找到包含特定关键词的文档。通过集成关键词倒排表功能，MyScale进一步增强了其自然语言查询能力，能够更好地支撑复杂的大模型 RAG 应用和多样化查询需求。这对于企业级 RAG 开发者来说无疑是一个好消息。

　　需求出发，综合考量向量数据库的全面能力

　　当考虑选择向量数据库时，汤林鹏强调，不同客户群体会关注不同的关键因素。对于实验性质的需求，客户可能更倾向于选择开源的向量数据库，如Qdrant和Chroma。这些产品通常具有较为简单的使用接口，能够满足基本的实验需求。

　　对于需要搭建稳定 SaaS服务的客户，尤其是那些有出海需求的客户，购买SaaS向量数据库产品可能是一个更优选的选择。SaaS 产品的全托管模式，降低了使用和服务运维的成本。

　　对于那些需要处理大规模数据复杂数据的客户来说，全面数据管理能力和复杂查询的能力，以及海量数据时的性价比是一个非常重要的考虑因素。在这方面，具有相关优势的产品如MyScale可能会成为客户的重点考虑对象。MyScale 同时提供了开源社区版，企业版和 SaaS 服务，基于 SQL 接口，强大通用又容易上手，可以满足不同类型客户的需求。

　　写在最后

　　采访最后，汤林鹏对向量数据库未来的发展方向做出了深入的总结。从技术层面来看，他认为复杂数据建模、向量与关键字的联合查询、复杂查询的优化以及基于数据库的大模型与复杂数据调度的 agent workflow 将成为核心发展重点。特别是Data-centric LLM 等前沿技术，被寄予厚望，预期能大幅提升数据处理和分析的能力。

　　而在行业应用上，汤林鹏预测今年的向量数据库市场将迎来爆发式增长，可能比去年高出五倍以上。他认为这种增长将主要集中在科研、金融、工业、医疗、法律企业服务以及泛娱乐等领域。特别是随着大模型能力的不断提升和成本的下降，这些行业的向量数据库应用规模有望比去年扩大数倍。

　　尽管向量数据库的前景广阔，但仍需紧密关注技术和市场的变化，确保发展方向与行业需求紧密结合，从而推动向量数据库在更多领域的广泛和深入应用。

　　经过近 6 年的开发和数次版本迭代，MyScale已于近期开源，他向所有开发者和企业用户发出邀请，开启使用 SQL 构建生产级 AI 应用的新玩法！

　　（项目地址：https://github.com/myscale/myscaledb）

关注我们