数据库 频道

千亿级超大规模向量数据库正加速AI进化

  当大模型开启“诸神之战”,有一个致命的短板,让尝鲜的用户无法忍受。“一本正经地胡说八道”,这是很多大模型的“通病”,这也是我们常说的“AI幻觉”。如何让大模型变得更准确、聪明,还不胡言乱语?除了模型框架、数据、算法,还有一个关键应用就是向量数据库!

  数据中枢背后

  关于向量数据库与大模型的关系,以及存在的重要性,有多种版本解读。相对形象一点的说法是,如果大模型有一个容易失忆的大脑,那么向量数据库就是“海马体”,主要负责记忆的存储和定向等功能。从解剖学的角度来看,如果把一个人大脑里的海马区切除,这个人就失去了长时记忆能力,感受不到声、光、味觉等。

  说白了,大模型之所以有幻觉,根本原因是大模型的向量数据库不够强大,导致大模型只能从既定的数据中查找答案,推理的结果常常泛泛而谈,或者胡诌,极度影响体验。所以,大模型聪明与否,要看向量数据库是否给力,这也是腾讯云为什么发力向量数据库,构建AGI“数据中枢”的根本原因。

  有人可能会想:我在数据中台层面提升数据调度能力,传统关系型数据库也可以支持呀?但现实情况是,企业在搭建和使用大模型时,首先需要把海量数据安全、高效地接入大模型,在诸多复杂数据中,适合关系型数据库的结构化数据仅有20%,其余80%都是文本、图像、视频、音频等非结构化的数据。而向量数据库可以把复杂的非结构化数据处理成多维逻辑的坐标值,与大模型进行连接,数据处理的效率要比传统数据库提升10倍。

  同时,向量数据库也可以作为外部知识库给大模型输送最新、最准确、最全面的信息,高效应对实时问答,并且让大模型拥有长期记忆,避免聊天时的断片。如此一来,向量数据库与大模型是最 佳搭档的说法,就比较容易理解了。

  专业向量数据库VS传统数据库向量插件

  事实上,把向量数据库作为大模型背后的主要赛道,领先企业已经走在创新征程中了。初步统计,致力于向量数据库的厂商已经有50多家。而从具体的技术路线来看,主要分两大类:一类是专业的向量原生数据库,从诞生开始就为向量设计,可以做向量数据结构的存储、解锁、查询;另一类是传统数据库上加了一个向量插件,使其能够支持向量的检索。

  对比分析,两种方式各有应用场景,比如:企业刚开始时候,数据量不大,不想引入新数据库,那就可以选择传统数据库+向量插件的方式。但如果企业数据量较大,想构建更聪明的大模型,对性能和未来发展有更高要求,那选择像腾讯云这样专业的向量数据库产品,显然会更适合。

  从向量数据库应用角度看,还有更多可能性。现在,很多企业用向量数据库解决大模型的幻觉、知识增强等方面的弱点,但其实未来不局限于这些能力,还可以在图像查询方面有更好的表现,比如:对手机里的照片进行查询,类似于搜图引擎,这其实也是一种向量查询。

  当然,在大模型场景下,并不是说有了专业向量数据库,传统数据库就再无用武之地了。向量数据库与传统关系型数据库之间依然可以协同发展、相互补充。针对传统关系型数据库难以处理的大规模数据、低时延高并发检索、模糊匹配等领域,向量数据库通过数据的向量化来满足特定需求。传统数据库可以支持数值、字符串、时间等传统数据类型,但向量数据库只支持新的数据类型,不存储原始数据。传统数据库支持的数据规模相对不大,最多是1亿条数据,而向量数据库可以支撑大规模数据,千亿条数据是底线。传统数据库的查询方式是精确查找,要么符合条件,要么不符合;向量数据库是近似查找,查询结构和输入条件是最相似的,对计算能力要求较高,上层应用是对外提供统一的API方式,更适合大规模AI应用程序的部署和使用。

  智能进化

  大模型并不是从零开始,向量数据库也不是。那么,向量数据库到底是怎么发展起来的?腾讯云数据库团队曾经有过深刻的思考!

  腾讯云数据库副总经理罗云认为,大模型的本质不应该是一个无限大的存储体,而是一个带有智算能力的平台,将之前只有编程语言才能触达的底层计算能力,用自然语言去调度,这应该是一个令人兴奋的奇点。兴奋之余再次冷静思考,人类在完成数字化改造过程中,除了计算平台,还有其他的可能性吗?到底什么才是AGI时代的技术内核?总结发现,底层数据的智能化流通才是撬动数据中枢的金钥匙!

  如今,当企业有了通用的智能计算能力后,底层的数据可以快速流动起来,我们可以把文件存在文件系统,我们可以调用关系型数据库里面的表格数据、非关系型里面的KV数据,所有数据都可以通过智能化的方式流通和联动。但要想让数据和人类对话,光有计算平台还不够,还要有一个智能数据平台,可以用自然语言把数据取出来,然后交给大模型去计算,而要达成这样的目的,向量数据库就成为一个重要的枢纽。

  既然向量数据库如此重要,我们如何在传统数据库经验基础上,通过智能化升级,与数据平台进行对话?这恰好是腾讯云数据库最擅长的点!在腾讯云向量数据库技术峰会上,腾讯云宣布联合第三方机构完成了一个测试,腾讯云向量数据库可以支持千亿级别规模的数据,并且QPS大幅提升,达成了500万的峰值能力。

  目前,腾讯云向量数据库已经有大量用户,包括百川智能、好未来、销售易等公司。最近,他们和百川一起做了个 AGI 启航计划,赠送向量数据库实例及 Baichuan2 大模型 400 万的 Tokens。

  通过Embedding、向量索引、分布式系统架构、硬件加速等核心技术,腾讯云向量数据库可以有效解决文本、图像、视频,包括生物制药、风控、音频、多模态等广阔场景的特定问题。比如:利用Embedding技术将高维度的数据(例如文字、 图片、 音频)映射到低维度空间 ,即把图片、声音和文字转化为向量来表示,将这些向量存储起来就构成向量数据库,实现Embedding过程的方法包括神经网络、 LSH(局部敏感哈希算法)等。

  所谓,“罗马不是一天建成的”,从2019年左右开始,腾讯就在去打磨向量数据库的能力,引领企业业务走向AGI时代。到目前为止,腾讯云已经服务了40家以上的内部客户,每天支持的向量数据的检索超过了1600亿次。同时,腾讯云服务外部客户也达到了1000家,这样的增速可以说是非常惊人。

  放眼未来,AGI正在加速进化,这中间有惊喜,也有挑战。腾讯云数据库将一如既往,不断探索,引领创新。“Road to AGI,Together on the Path”——这句话完美地概括了腾讯云技术团队的当前状态!

0
相关文章