数据库 频道

OceanBase 入选 Forrester 报告:混合搜索才是AI数据库能力的分水岭

张易

OceanBase 资深技术专家

2021 年加入 OceanBase,负责多模相关的研发工作,对分布式系统、内存数据库以及多模领域充满浓厚的兴趣。


在  AI  与数字化转型驱动的时代,企业正面临数据形态、处理速度与复杂性的剧增。近日,全球知名咨询机构  Forrester 在其最新报告《 Multi-Model Data Platforms Landscape, Q4 2025 》中指出,多模数据平台( MMDP )已成为应对现代应用复杂数据需求的关键趋势。报告将  MMDP  定义为“ 在一个数据库管理系统中支持多种数据模型” 的统一平台,其核心价值在于简化技术栈、降低数据冗余并加速开发周期。

OceanBase 作为“ Notable Vendor” 出现在该报告中, 这不仅是对  OceanBase  多模一体化产品的认可,更预示着化繁为简、现代架构的数据时代即将来临。

在报告中, OceanBase  被认为是聚焦以下扩展用例的代表性厂商:

  • Agentic AI

Forrester 认为 MMDP 是 Agentic AI 的大脑与记忆。AI Agent 需要推理,它需要知道事实、拥有记忆并理解逻辑关系。MMDP 提供了向量检索(找相似)、图谱(找逻辑)、结构化数据(找事实)的统一平台,防止 AI 幻觉。

  • 多模数据统一检索

Forrester 认为 MMDP 能为开发者提供一键“原子操作”。比如,用户修改资料,既要改结构化数据里的名字,又要改全文搜索里的索引,还要改图数据里的节点,过去这需要写很复杂的分布式事务代码,而 MMDP 允许用统一查询语言在一个步骤内完成跨模态的增删改查,保证数据一致性,极大简化开发。

  • 推荐引擎

Forrester 认为 MMDP 能够提供比“猜你喜欢”更懂你的推荐。传统的推荐只看买了什么,现在的推荐要看用户的实时点击流(行为)、朋友买了什么(关系)、用户搜索的关键词(文本语义),结合了图计算(社交推荐)和多模态搜索(语义推荐),提供更精准的上下文感知推荐。

本文将深度解读  OceanBase  多模一体化能力,探讨其如何以原生一体化的架构,帮助企业架构师与  IT  决策者厘清正在面临的“ 架构之问”  是继续采用“ 烟囱式” 的数据库组合,还是转向真正的一体化平台?


从“多”到“一”:终结架构碎片化,多模是 AI 时代的必然选择

长期以来,业界普遍采用“ 为专业场景选择专业工具” 的理念,构建了所谓的“ 多语言持久化”  Polyglot Persistence )架构,即为不同数据模型部署独立的数据库系统。然而,这种模式在业务复杂性指数级增长的今天,其弊端日益凸显,逐渐演变为创新的沉重枷锁。

这种“ 数据库联邦” 模式的困境,在许多积极拥抱  AI  的企业中表现得尤为突出。它们为了实现语义搜索、精确匹配与关系查询,被迫引入由关系数据库、搜索引擎与多种向量数据库构成的复杂技术栈。这不仅导致架构臃肿、运维成本高昂,更在稳定性、数据一致性与开发效率上带来了巨大挑战,形成了沉重的技术债务。

货拉拉在转型过程中的早期探索,便是一个深刻的例证,其面临的动态  Schema  变更、混合检索与多系统运维难题,正是这种碎片化架构的典型缩影。

这些痛点深刻揭示了“ 烟囱式” 架构的本质缺陷 —— 它将数据管理的复杂性转嫁给了应用和运维团队。正如  Forrester  报告所指出的, MMDP  的核心价值正是通过在一个数据库内部实现统一的数据存储、事务处理和治理,从根本上解决数据孤岛问题,降低总拥有成本( TCO )并提升业务敏捷性。


Forrester: MMDPs Enable Simpler Cross-Model Querying

解构 OceanBase:为 AI Agent 打造的混合搜索“大脑”

在 AI Agent 与大语言模型(LLM)引领技术浪潮的今天,数据库的角色正在被重新定义。 它不再仅仅是数据的存储仓库,更是决定  AI  应用智能水平与运行成本的“ 上下文引擎”  Context Engine )。

正如  OceanBase CTO  杨传辉所言,“ 向量搜索只是  AI  数据库的初级阶段,最终所有向量搜索都会演进为混合搜索—— 能否支持混合搜索,正是衡量  AI  数据库核心实力的关键分水岭” 


OceanBase  的多模一体化实现混合搜索


OceanBase  的多模能力并非简单的“ 功能叠加” ,而是根植于其原生一体化的分布式架构。这种架构将关系、向量、全文、 JSON  等多种数据模型统一在单一引擎下,共享同一套存储、事务和查询优化器。其核心价值主张,正是从  AI  Agent  的视角出发,通过强大的混合搜索能力,为大模型提供更高质量、更精准的上下文信息,从而在提升  AI  应用效果的同时,显著降低因 T oken  消耗而产生的计算成本。


混合搜索:AI 时代的“上下文工程”基石

AI  应用,尤其是  RAG (检索增强生成)应用,其效果的优劣极大程度上依赖于提供给大模型的上下文质量。大模型虽然具备强大的计算能力,但缺乏长期记忆,这就需要数据库为其存储并管理上下文信息,同时精准输出大模型所需的上下文—— 这一过程被称为“ 上下文工程”  Context Engineering )。

一个典型的复杂查询,如“ 推荐附近  500  米内,人均消费低于  25  元,评价超过  4.5  分,且环境安静的咖啡厅” ,单纯的向量或文本搜索都难以胜任。这需要一个能同时理解并处理多种数据维度的“ 大脑” 

OceanBase  的混合搜索能力,正是为解决这类多维度信息综合检索的难题而生。它将四种关键的搜索能力无缝融合在一个查询引擎中:


这种“ 多路召回,统一排序” 的模式,让  OceanBase  能够先通过关系、标量数据进行高效过滤,大幅缩小检索范围,再在小范围内进行精准的向量或全文搜索。每一路检索都会产出部分结果,最终将各路结果融合,并经过全局重排序( Rerank),才能为大模型输出其真正需要的精准结果。

OceanBase  混合搜索机制

这种机制不仅极大地提升了查询的准确性( Recall )和精确率( Precision ),更重要的是,它将最相关、最精炼的信息作为上下文喂给大模型,有效避免了无关信息对模型推理的干扰,并从根本上减少了昂贵的 Token 消耗,直接降低了 AI 应用的运行成本。


技术利器一:高性能向量搜索是混合搜索的基础

高性能且功能完备的向量搜索,是混合搜索的核心基础。目前, OceanBase  向量搜索性能已达到业界开源向量数据库的先进水平 —— 无论是稠密向量还是稀疏向量,在向量数据库领域主流  Benchmark  测试中均表现突出。

在  VectorDBBench  的测试中, OceanBase  在不同过滤率下的性能全面占优。同时, OceanBase  的磁盘向量索引,在构建时间与存储占用两方面,也实现了业界领先。

OceanBase  向量性能测评

更重要的是, OceanBase  实现了向量搜索与全文搜索的深度融合,通过多路搜索显著提升召回效果。测试数据清晰呈现了不同搜索方式的召回表现:仅采用单一搜索路径(无论全文搜索、稠密向量还是稀疏向量),都难以达到最优召回效果;唯有将稀疏向量、稠密向量与全文搜索相结合,才能实现更优的召回表现,达成  1+1 > 2 的协同效应。

OceanBase  多路召回评测

值得一提的是,这两大能力均构建于  OceanBase  数据库原生架构之上,天然继承了分布式架构的弹性扩展特性与对象存储的高效适配能力。


技术利器二:半结构化数据的高效处理(JSON)

在  AI  场景中,企业在处理海量  JSON  数据(如用户行为日志、订单轨迹、动态特征字段)时,普遍面临  Schema  重复存储导致空间浪费、按行存储导致压缩率低、查询性能低下等痛点。

OceanBase  针对性地设计了创新的存储方案。它采用  JSON  二进制存储,并创造性地实现了“ 列化拆分” 。通过智能识别“ 高频列( Frequent Col )” 与“ 稀疏列( Spare Col )” ,将频繁访问的字段独立成列存储,稀疏字段则聚合存储。

OceanBase JSON  列化拆分机制


这种设计带来了显著的技术收益。首先是极致的压缩效率,拆分后的独立列可利用  OceanBase  成熟的列存编码能力进行高效压缩。在  TPCH-10G  数据集上的测试显示,其压缩比是传统文档数据库 的   倍,直接降低了存储成本。

其次是查询性能的加速,查询特定字段时,只需读取对应列,极大减少了  I/O  开销。此外,用  JSON  格式动态扩展特征字段,还可帮助企业减少  30%-50%  的数据清洗成本。这一能力对于  AI  应用中频繁变化的特征工程尤为重要,使得企业无需频繁修改  Schema  即可灵活应对业务需求。


技术利器三:HTAP 能力支撑 AI 场景的元数据管理

在  AI  场景中,除了要开展多路搜索,还需妥善管理  AI  场景下的元数据。要做好  AI  数据库的元数据管理,不仅需要支持元数据的实时写入与事务一致性,还需实现元数据检索结果与多路搜索结果的  SQL  级联动。

在这方面,支持  HTAP  的关系型数据库是更优选择。通过将关系模型与向量、全文、 JSON  能力深度融合,OceanBase  最终形成了全面的混合搜索能力。

OceanBase  如何解决  AI  场景元数据管理问题


例如,在知识库场景中,需要管理用户权限、文档分类、访问日志等大量元数据,同时还要进行文档的语义检索。传统方案需要在应用层协调关系数据库与向量数据库的查询结果,而  OceanBase  则可以通过一条  SQL  完成“ 先通过关系过滤确定用户可访问的文档范围,再在该范围内进行向量语义搜索” 的复杂操作,极大地简化了开发逻辑并提升了查询效率。


一体化架构:从“数据库联邦”到“统一数据底座”

过去,企业为了实现类似的多模态处理能力,不得不拼凑一个由关系数据库、向量数据库、全文搜索引擎等多种产品组成的“数据库联邦” 。这种“ 烟囱式” 架构不仅运维复杂、成本高昂,更在数据一致性、开发效率和系统稳定性上带来了巨大挑战。 

OceanBase  的一体化架构则试图改变这一局面,为企业  AI  应用提供坚实的统一数据底座。多个客户的成功实践,生动地诠释了这一价值。

蚂蚁集团“ 百宝箱” 的智能体在线搜索就是一个典型案例。其复杂的地理位置、用户评分、消费水平和语义偏好混合查询需求,在  OceanBase  中通过一条  SQL  即可实现,完美替代了原先  Milvus + Zsearch + OceanBase  的复杂组合。这种将多路检索逻辑从业务层下沉到数据库内核的做法,极大地简化了业务实现,实现了在线高性能混合搜索。

蚂蚁集团百宝箱  Agent  在线搜索示例


货拉拉 则基于 OceanBase 的混合搜索能力,构建了一站式的企业 AI 数据底座,支撑起包括知识库平台、AI Coding、Agent 平台、ChatBI、智能客服等多种 AI 应用。 这不仅用单一技术栈取代了原有的  vsearch + Weaviate + Milvus  等多个开源组件,解决了系统的稳定性难题,还复用了  OceanBase  成熟的高可用能力,实现了  RPO=0  RTO<8  秒的金融级标准。

在具体应用中,货拉拉通过“ 资损代码识别” 场景,利用历史案例向量化与实时代码相似度检索,有效规避了潜在的财务风险;在“ 数仓 AI 答疑助手” 项目中,更是融合了向量、标量、全文关键字等多种检索方案,并结合重排序模型,显著降低了内部数据查询门槛和人力成本,提升了数据开发人员的效率。

货拉拉  AI  应用架构


中国联通 利用  OceanBase  构建了拥有  10  亿级向量规模的公司级统一知识库平台。原先采用“ 关系数据库+Elasticsearch” 的架构,在切换到  OceanBase  后,查询执行效率提升到原  Elasticsearch  方案的   倍,同时解决了复杂的用户 - 文档权限管理问题。通过融合关系查找与多路搜索,联通成功实现了知识库的精细化权限管控及灵活的用户间权限共享需求,支持公共文档与私有文档的统一管理。

中国联通  AI  应用架构图


飞猪 也通过  OceanBase  统一了其智能体数据平台的后端,用一套系统替代了原先的 分布式  KV +  分布式  Table +  搜索  +  向量 的复杂架构。这不仅统一了技术栈,还实现了对知识库、 Memory  等多种数据的统一支持, SQL  的简单易用性与稳定低延迟的特性,让开发团队能够更专注于业务创新。

飞猪  AI Agent  架构


这些案例共同证明, OceanBase  的一体化架构并非简单的功能聚合,而是通过在内核层面实现多模数据的统一管理与查询,从根本上解决了数据孤岛问题,降低了技术栈的复杂性,最终加速了 AI 应用的创新与落地。


从技术到业务:OceanBase 多模一体化的实践价值

技术的先进性最终需要通过业务价值来体现。从上述案例中,我们可以清晰地看到  OceanBase  多模一体化架构在  AI  时代所带来的三大核心价值:

第一,显著降低  AI  应用的运行成本。   通过混合搜索提供的精准过滤与排序机制, OceanBase  能够为大模型提供更高质量、更相关的上下文信息,从而大幅减少无效  Token  的消耗。在当前大模型推理成本居高不下的背景下,这种成本优化对企业而言具有直接的经济价值。

第二,简化技术栈,提升开发与运维效率。  一体化架构让企业无需在应用层协调多个异构数据库系统,开发者可以用熟悉的  SQL  语言完成复杂的多模查询,极大地降低了学习成本与开发复杂度。同时,统一的运维管理也减轻了  DBA  团队的负担,提升了系统的整体稳定性。

第三,加速  AI  应用的创新周期。  当数据基础设施变得简单、高效且可靠时,业务团队可以将更多精力投入到  AI  应用本身的创新上,而非陷入复杂的数据管道搭建与维护中。这种“ 基础设施即服务” 的理念,正是  OceanBase  一体化架构的核心价值所在。


选择下一代数据基石,拥抱智能未来

Forrester  的报告揭示了多模一体化不仅是技术趋势,更是企业在  AI  时代保持竞争力的战略选择。面对日益复杂的数据环境,传统“ 烟囱式” 的架构已难以为继。

OceanBase  提供的不仅是一个功能丰富的数据库,更是一个稳定、高效、面向未来的一体化数据基石。它通过在存储、查询、事务等层面的原生一体化设计,让企业能够更从容地应对数据融合的挑战,将宝贵的精力聚焦于业务创新本身。

特别是在  AI  时代, OceanBase  以混合搜索为核心的多模能力,从  AI Agent  的视角出发,为大模型提供高质量的上下文信息,在提升  AI  应用效果的同时显著降低运行成本,真正实现了技术与业务价值的统一。

对于正在寻求下一代数据架构的架构师和  IT  掌舵者而言,可以重新审视自身的技术栈,考虑  Forrester  倡导的多模数据处理平台,为企业的下一个十年发展奠定坚实基础。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章