对于致力于全球化发展的分布式数据库提供商PingCAP而言,刚刚过去的2024年令人难忘,在海外以及中国市场取得了不错的成绩:比如,TiDB在DB-Engines关系型数据库中排名38,是唯一进入Top 50的中国数据库产品,中国市场2024年营收同比增长100%等等。
在日前举办的分析师交流会中,PingCAP分享了过去一年在产品、技术等方面的进展、突破以及对未来的展望,并发布了TiDB 8.5 LTS版本,为关键业务负载带来可扩展性、运维洞察力和AI就绪能力。如今,PingCAP以更加稳健的内核、云与AI不断创新发展,来迎接GenAI时代,以及PingCAP自己的下一个十年。
RAG是一个数据生意,但只有向量搜索还不够
过去两年,IT行业最大的变化趋势非AI莫属,有人感慨,几乎所有热门话题都围绕着AI展开,仿佛“天上一日,地上十年”,AI的进展速度远超传统技术的迭代速度。
PingCAP联合创始人兼CTO黄东旭认为,现在很多AI业务,其本质仍然是数据业务。目前,大模型主要出现了训练、蒸馏+Finetune(微调)、RAG三种发展思路,其中训练模型有较高的门槛,更多是巨头之间的游戏。而微调的方向和效果不可控,且微调时间周期长、迭代慢、成本高。综合来看,当前RAG是能够让大模型与产业快速结合落地的有效路径。
RAG已经从最简单的向量索引+LLM,发展出了GraphRAG、结合全文索引等多路召回的方案,但是其核心思想没有变,即对于给定的问题,能够在数据库中尽可能召回与该问题最相关的上下文,其中LLM的推理、归纳能力只是起到阅读理解的作用,RAG回答问题的质量,其关键是数据的质量以及召回的精度,所以“RAG事实上是一个更接近数据处理/数据库的生意,而不是一个AI的生意。”
随着企业对向量搜索(Vector Search)需求不断增长,越来越多的数据库产品支持向量搜索。根据Gartner的最新报告,面向GenAI时代的发展需要,大多数供应商正在将GenAI捆绑到现有产品中,而不是创建新产品,例如支持向量作为原生数据类型以支持AI用例、AI助手和自然语言查询等。
PingCAP最新发布的TiDB 8.5 LTS版本引入了向量搜索功能,助力企业更好地应用AI。实际上,TiDB在向量搜索支持方面早有布局,2024 年 2月1日,TiDB Serverless推出内置向量搜索功能,用户能够使用TiDB Serverless开发AI应用。同年 6月27日,TiDB Cloud 发布向量搜索公测版,提供了一个功能全面且与SQL兼容的向量搜索解决方案,为 AI 应用开发者带来了便利。如今,随着在TiDB 8.5 LTS长期支持版本引入此功能,表明其向量搜索功能更为成熟、稳定与强大。
黄东旭本人以及PingCAP是TiDB新功能的首批使用者和受益者,tidb.ai是TiDB的AI助手,该AI助手通过TiDB构建了全文检索+Graph+向量搜索的多路召回方案,实现了较高的智能化水平。在自身实践以及与客户的交流中,团队发现,单纯的向量搜索其召回率和准确率都无法很好满足实际业务需求,全文检索+Graph+向量搜索的一站式数据方案会有更好的智能效果,这也印证了他在2019年关于向量、图、全文检索融合发展的判断。
(在TiDB DevCon 2019大会上,黄东旭指出向量、图、全文检索融合发展)
黄东旭认为,随着GenAI不断深入发展,2025年,主流的数据库都会支持向量索引类型,单独的向量数据库的市场增长恐会陷入停滞,而一站式多模态的数据库解决方案会越发流行,TiDB未来也会向着多模一体化的方向不断演进。
十年磨一剑,打造“好”的数据库产品
在数据库领域流传着这样一句话:好的数据库产品是用出来的。PingCAP研发副总裁唐刘强调,好的数据库是大量客户在全球范围内广泛使用打磨出来的。目前,TiDB在全球拥有数千家用户,并且支撑了很多核心系统的稳定运行。对于数据库的好,PingCAP也有自己的一套标准,“对一款数据库产品来说,‘好’无外乎两个核心标准:好用和稳定。尤其是稳定性,数据库的首要任务就是保证数据绝对不能出问题,这是我们过去十年来始终坚持的原则。”
自2015年成立以来,PingCAP就定下了立足国内,全球化发展的战略。过去十年,自主开源与云原生成为推动TiDB创新发展的两大引擎。十年磨一剑,才有了越来越稳健的TiDB内核,打造一款优秀的世界级数据库产品。
TiDB整体上经历了四个发展阶段:
第一阶段,是产品创建和社区建设初期,最大的挑战是让客户了解并选择TiDB,通过开源赢得了早期用户的信任。
第二阶段,是规模商业化和出海阶段,TiDB支持HTAP混合负载,且在可视化运维工具以及备份、恢复等企业级功能不断强化,其用户群体快速扩大,特别是国内互联网企业,越来越多的企业选择使用TiDB,在海外也取得了突破。
第三阶段,全面拥抱云原生技术,基于云重构TiDB,推出了TiDB Cloud和TiDB Cloud Serverless服务。与此同时,为了更好地服务中国客户,推出了面向中国市场的平凯数据库产品。平凯数据库凭借其稳健、可靠的内核和出色产品能力,成为首批通过安全可靠测评的分布式数据库产品。
第四阶段,从2024年开始,TiDB因应GenAI时代变革,进入全新发展阶段。产品层面提供对AI向量搜索支持,云与AI创新发展。与此同时,提供更大规模的PB级集群支持以及更好的稳定性。
唐刘认为,AI时代的数据库需要具备高可扩展性、混合复杂处理、多模态搜索、云原生、一体化的能力,最新发布的TiDB 8.5 LTS版本是拥有上述能力的集大成者,除了AI搜索的支持,TiDB 8.5版本专为应对企业级用户的关键业务挑战而设计,包括管理多租户架构、优化实时性能,以及增强超大规模集群的稳定性等。
比如,在可扩展性方面,每个TiDB集群支持超过100万张表,使得SaaS供应商能够轻松管理海量数据集,并确保跨租户的一致查询性能。在稳定性方面,TiDB 8.5也做出了重大改进,其中一项关键能力是支持接近无限大小的事务。在银行业务中,一个核心场景是跑批操作,新版本能够保证金融行业批处理任务的稳定运行,避免业务拆分和改造带来的挑战。TiDB 8.5与旧版本相比,I/O 抖动对系统的影响降至原来的十分之一,确保用户业务的稳定运行。此外,TiDB提供更精细的资源管控颗粒度,新增了基于资源组做业务划分和资源限定,保证关键业务稳定运行,轻松驾驭复杂多业务合并场景,实现资源的高效利用。此外,新版本并对延迟影响也进行了优化。
在稳定性、性能、可用性和可扩展性等基础领域不断持续提升,使TiDB能够稳定地运行核心业务,为客户提供了信心。
以PB级数据场景为例,TiDB海外的社交平台客户Printrest将数据库从HBase迁移到 TiDB 后,运维人员处理工单的数量大幅降低,使用HBase时每天处理4到5个工单,而迁移到TiDB后,两周才处理一个工单,可见TiDB能够更稳定地支持他们的核心业务。
小结:开启下一个十年
2025年是PingCAP成立十周年,一个稳健强大的内核,AI与云的创新发展,以及全球数千客户的认可,使得PingCAP以一个更好的姿态开启下一个十年。在PingCAP,遵循着“部署一代、研发一代、预研一代”的产品策略,几年前基于云对TiDB内核进行重构,让其早早拿到了下一个十年的船票,我们看到全球范围内越来越多的数据库厂商基于S3打造DBaaS或Serverless数据库服务。而TiDB过去几年在云上的投入逐渐显现成效,云上的客户集群数量在短短两年内增长了10倍,数据量更是增长了40倍。
唐刘指出,TiDB的愿景是成为引领AI时代创新的首选云原生分布式数据库,这需要长期的持续耕耘。为了实现这一目标,2025年TiDB v9版本将专注于内部的优化和能力增强,会在稳定性、性能、可扩展性三大方面发力:
稳定性方面,首先,持续改进TiDB的内存控制机制,消除内存压力造成的稳定性风险,尽最大努力减少OOM(Out Of Memory)错误的发生,确保系统的稳定运行。其次,自动执行优化,引入类似于Oracle的SPN(Stored Procedure Native Compilation)技术,根据历史负载推荐执行计划,进行自动化性能优化,稳定集群性能。
性能方面,将正式发布融合全文检索的多模混合搜索(Hybrid Search)功能,进一步提升TiDB搜索能力。Cascades优化器引入基于代价的改写,支持更大的计划搜索空间,提升性能的同时,保持稳定性。
可扩展性方面,在支持PB级数据和百万张表的基础上,通过TiCDC架构和用户其他业务生态进行对接,解决TiCDC的可扩展性问题。同时,拥有如此海量的数据,将提供可扩展的并行DDL执行框架,加速批量DDL任务处理,加速大集群运维管理,提升业务敏捷性。
PingCAP是最早一批出海国际化发展的中国数据库厂商,未来相信会有更多的中国数据库产品走出国门,寻求海外发展,通过走访全球客户,结合这些年的实践,PingCAP总结的经验是:“最好的国际化一定是本地化(Local for local)。”比如,面向中国市场推出平凯数据库,平凯数据库是基于TiDB开源内核面向中国客户的场景需求进行开发设计的数据库,只有深入理解中国市场的特点,并针对性地进行功能开发和产品优化,才能真正赢得客户的信赖,而这正是践行其全球化发展Local for local理念的真实写照。