AI正在改变我们的生活,也在重构IT,比如应用层正在向着智能原生发展,基础设施层出现了智算中心,在数据层,占全球80%以上的非结构化数据因为AI能力的提升得到极大激发,非结构化数据的挖掘分析需求井喷。
以上这些变化为现代数据架构带来全新的挑战,数据栈中的每个环节都需要考虑如何因应AI带来的变革,而最为基础的数据库其AI之战已经打响,格外激烈,简化架构的一体化融合正成为未来数据库的发展趋势。
日前,OceanBase在其2024年度发布会上推出OceanBase 4.3.3 GA版本,推出向量检索与索引功能,实现SQL+AI一体化,一体化战略更加丰富,以更好满足AI时代的数据库需求。
AI时代数据库正在走向融合
支持向量检索已经成为AI时代的显性需求,Forrester公司的一项新研究发现,到2026年,75%的传统数据库(包括关系型数据库和NoSQL数据库)将在其产品中加入向量功能。
但是只有向量检索并不够,AI时代的数据处理需求发生了变化,需要数据库具备新的特性:
数据处理实时性要求高:随着实时数据分析和决策的需求增加,数据库必须能够快速处理大量数据,以支持实时应用,如在线推荐和动态定价。这对传统数据库在性能和响应时间上提出了更高的要求。
数据类型日益多样化:AI应用生成的数据量大且类型多样(结构化、半结构化和非结构化),数据库需要具备处理和存储不同类型数据的能力,要求支持多模架构,以满足多模态的数据需求。
数据处理复杂度增加:AI应用对复杂数据分析提出更高的需求,数据库需要支持复杂SQL查询优化,提升查询性能,未来数据库需要支持精确/模糊查询的复杂融合查询,以满足深度学习和机器学习模型的训练与预测需求。
多源数据整合:不同来源的数据需要进行融合处理,以获取更全面、更准确的信息。例如,将企业内部不同业务、不同工作负载的数据,甚至生态业务数据、行业数据进行融合,分析企业的市场竞争力和发展趋势。
在OceanBase 2024年度发布会现场演示“望小京”AI Agent Demo时,要求其“推荐两公里内、评分4.5以上、人均消费25元以内干净卫生的奶茶店,”这是我们常遇到的场景,也是典型的多模混合查询场景,这时数据库要同时处理GIS数据(距离)、关系型数据(价格、评分)、向量数据(干净卫生)等类型的数据。
许多公司采用多个单一用途数据库处理不同类型数据,这增加了架构复杂性和管理难度,也为快速构建AI应用增加了困难。
“以往构建一个复杂的AI应用,需要依赖多个不同的数据库、管理非常复杂的技术栈,同时还需要一个经验丰富且规模较大的团队。”OceanBase CEO杨冰介绍,借助OceanBase一体化能力,以OceanBase为底座的“望小京”仅依靠几位工程师、用一周时间就开发完成。
一体化数据库有何不同?
一体化数据库是一种能够处理多种工作负载、数据类型及场景的数据库系统,旨在通过一个数据库满足企业各种复杂的数据需求,简化技术栈,提升效率并应对日益复杂的数据需求。
如今全球越来越多的数据库向着多模融合一体化数据库方向发展,OceanBase是其中的代表产品,其一体化能力并不是设计出来的,而是客户场景和需求催生出来的。
比如,从早期客户在互联网场景MySQL需求,到金融、电信行业的核心系统对Oracle兼容性的需求,推动OceanBase一体化SQL引擎的出现,通过一个引擎同时高度兼容Oracle和MySQL两种数据库,满足了不同业务的多样化需求;为了满足用户复杂性查询以及实时数据分析需求,从支持TP发展为支持混合负载HTAP;面对日益多样化的数据需求,持续增强对多数据类型的支持,除了传统关系数据,还支持JSON、XML、GIS等多样化的数据类型,能够处理海量数据的KV存储,并兼容HBase和Redis等多模数据库系统。
如今,随着AI的发展OceanBase不断丰富其一体化能力,OceanBase 4.3.3在关系型数据库基础上新增了向量检索能力,支持向量数据类型、向量索引以及基于向量索引的搜索能力。用户可以通过SQL和Python SDK等方式灵活使用OceanBase的向量检索能力。通过集成向量检索和混合搜索功能,显著简化了AI技术栈。
我们看到Oracle、MongoDB、OceanBase都在往一体化方向发展,支持多模数据,支持向量检索等,不过世上根本不存在一款全能的数据库产品,不同的数据库有其适合的场景。
OceanBase CTO杨传辉介绍,OceanBase的一体化有自己的定位,OceanBase比较适合数据量在几百G到1PB之间的场景,对于更小的数据量,Oracle和MongoDB可能更为合适,而当数据量达到1PB或更大时,通常属于离线分析场景,这并不是OceanBase目前擅长的强项。
未来,随着企业业务不断发展,OceanBase单机分布式一体化架构的弹性扩展能力也越来越重要,能够随着企业一同成长,满足企业不同发展阶段的业务需求。
小结:AI时代,行稳致远
表面上看众多一体化数据库的能力有所趋同,实际上从什么样的内核底座生长出来这些能力更为重要,也是差异的关键所在。
比如,OceanBase通过蚂蚁集团内部业务、双十一极致场景,以及大量金融、电信等关键行业核心系统打磨出来了健壮的数据库内核,一体化能力也更加稳定、可靠。其单机分布式一体化架构以及多云原生带来的跨多种设施(本地部署、多云、跨云等)的能力,能够为企业提供更灵活的选择,屏蔽掉底层基础设施的复杂性。
“数据库的本质是信任。”杨冰指出,OceanBase在关键业务负载场景中已经赢得了客户的信任。随着客户需求从线下部署向云上服务的转变,OceanBase正不断扩展在云数据库和AI领域的布局,坚定地践行长期主义。
比如随着AI大模型快速发展,这两年很多数据库支持了向量检索,面对行业热点,OceanBase始终保持着自己的开发节奏。杨传辉介绍,OceanBase之所以现在推出向量能力,有两方面考虑:
一方面,OceanBase推出向量索引要有自己的品质,要开发一款优秀的产品,并确保其分布式能力,必须在实际业务中经过充分的打磨,以保证稳定性,而这一过程需要相当长的时间。
另一方面,OceanBase推出向量能力的基本前提,是把OLTP LTS版本落地,底层的架构基本落地,如今面向关键业务负载,所以在此时推出向量能力并将能力融入OceanBase 4.3.3 GA版本。
实际上,现在向量数据库的应用仍在初级探索阶段,而且往往一些互联网大厂走在了创新前沿,拥有更多的创新场景,OceanBase借助蚂蚁集团大量严苛AI场景的试炼场打磨产品,可以率先吃自己的“狗粮”,并将创新实践向行业输出,是其独特的竞争优势。
发布会上,OceanBase与蚂蚁集团联合开发的向量库在业内标准的ANN Benchmarks基准测试中,针对GIST-960数据集表现出色。测试结果显示,在90%以上的召回率区间,查询性能(QPS)相比此前最优算法glass提升100%。未来,OceanBase将成为蚂蚁集团的AI数据新底座,支持AI生活管家“支小宝”、AI金融管家“蚂小财”、AI健康管家三大AI应用,及支付宝百宝箱智能体开发平台的数据管理。
中国数据库正在向深水区迈进,也走到了新的发展阶段,面对AI时代的快速变革,数据库需要更前瞻地应对变化。百尺竿头更进一步,更需要行稳致远,对于现在的中国数据库而言,在这个充满机遇与挑战的时代,践行长期主义,以确保可持续发展,显得尤为重要。