数据库 频道

2023年数据库盘点:Serverless初起,智能化加速,国产化竞争加剧

2023是在全球科技公司一片裁员声中开启的,多少有点丧,但是AIGC的爆发引发了新一轮智能化革命,点燃了大家的热情。

本文主要聚焦中国数据库市场,一些创业者感慨不易,同时也能看到中国数据库市场的韧性、创新和突破。2023年,在数据库领域,智能化、云(多云、Serverless)、一体化融合是重要的技术发展趋势。随着国产数据库在各行业的应用不断深入,用户的要求也从“可用”转向“好用”。其中,金融级分布式数据库市场竞争格局已越来越明确,步入高质量竞争阶段。

重点事件

突破与创新:打榜、顶会论文获奖等

2023年,腾讯云数据库TDSQL通过TPC-C基准测试,打破世界纪录。此前,OceanBase曾在2019年和2020年两度打榜TPC,目前,该榜单前三名都是中国数据库产品。在图领域,海致星图的图数据库AtlasGraph和蚂蚁集团的流式图计算引擎TuGraph Analytics,分别打榜LDBC SNB Interactive和LDBC SNB-BI两项基准测试,取得突破。

2023年,很多厂商的论文被SIGMOD、VLDB、ICDE等国际顶会收录、获奖,创新与突破获得国际权威认可。如,2023年,阿里云数据库团队有近30篇论文被SIGMOD、VLDB、ICDE、OSDI、ASPLOS等国际顶会收录,其中阿里云与浙江大学共同完成的论文斩获2023 SIGMOD最 佳论文奖,这是历史首次由中国大陆研究团队摘得该奖项;腾讯云联合南京大学、苏黎世联邦理工学院(ETH) ,以及西蒙菲莎大学,合作的论文被VLDB 2023收录;OceanBase在ICDE 2023、SIGMOD 2023、VLDB 2023上发表7篇论文,其中OceanBase 4.0单机分布式一体化的研究成果,获得 “Artifacts Available badge”认可。

在Gartner发布的云数据库管理系统魔力象限中,只有阿里云一家中国厂商上榜,位列领导者象限。但是Gartner在全球范围内选出了10家“荣誉提及”厂商,华为云、腾讯云、OceanBase、PingCAP四家中国厂商入选“荣誉提及”,其中,OceanBase和PingCAP是首次入选。

Ps:打榜是一种自信和实力的表现,是值得肯定的。但是打榜得高分并不意味着就是最牛的数据库。好不好,最终还是用户说了算,需在真实场景上试来。Gartner®云数据库管理系统魔力象限多数都是欧美市场玩家,可以看出中国数据库整体实力与海外成熟的市场相比还有不小差距,正视差距,砥砺前行,才能缩小差距。

Teradata退出中国,一个时代结束

2月,数据仓库巨头Teradata宣布退出中国,引发广泛讨论,有人感慨“一个时代结束了”。至于为什么退出中国,Teradata给出的原因是根据Teradata对中国当前和未来商业环境的慎重评估所做的艰难决定。Teradata的退出似为国内厂商带来了机遇,那几日,有不少国内厂商发布“Teradata走了,选我”这样的新闻。

Ps:海外数据库品牌的退出,极易引发讨论,其实更多是商业的选择,对Teradata而言,中国区的业务本身占比不高,云端转型不顺也是重要原因,Gartner新发布的云数据库管理系统魔力象限,Teradata跌出了领导者象限。Teradata走了,对中国数据库市场影响也有限。即便因此有了新机会,国内厂商能否接得住是关键。

全球首个金融图数据库测试基准 FinBench发布

6月29日,国际关联数据基准委员会(LDBC)宣布全球首个金融图数据库测试基准FinBench(v0.1.0)正式发布,该测试基准由蚂蚁集团发起,旨在评估金融场景下图数据库的功能和性能,为金融行业提供量化的基准测试工具。

Ps:图数据库处在初级发展阶段,缺乏标准是阻碍其发展的一大因素。蚂蚁集团主导的 FinBench发布,填补了该领域的空白。

达梦数据上市获批

12月20日,根据中国证监会官网显示,武汉达梦数据库股份有限公司IPO注册申请获批。

Ps:此前星环科技登陆科创板,如今达梦数据上市获批,越来越多的数据库厂商上市,说明中国数据库正不断走向成熟。而达梦数据上市后,意味着其在资本市场的融资能力得到增强,这有助于公司在产研等方面加大投入,提升竞争力,为市场竞争格局增加变数。

技术与产品层面

向量数据库随AIGC爆发

ChatGPT所引发的AIGC浪潮,使得向量数据库异常火热,引发关注和讨论。 资本方面竞相追逐,比如4月,Chroma、Qdrant、Weaviate、Pinecone多个向量数据库初创厂商获得融资。有创始人感慨“如果没有AIGC,根本不可能获得那么多融资”。

国内外厂商争相布局向量数据库或者增加向量检索支持,如星环科技、腾讯云、爱可生、南大通用等发布了向量数据库,Elastic、MongoDB、PG、Oracle、Amazon、Neo4j、阿里云、天云数据等在其原有数据库基础上增加向量检索插件或向量检索支持。

向量数据库的优势是处理非结构化数据,大模型的爆发拓展了其应用场景。向量数据库在增强搜索、加速训练专有大模型方面有不少应用,相当于大模型海马体,可以与知识图谱结合,提升大模型的准确性和可用性。

“如果你看好AI,那你就可以看好向量数据库。”这句话说出了很多人的心声,向量数据库随着AIGC的发展水涨船高,也将受AI、大模型应用发展的影响。

数据库智能化发展DB4AI&AI4DB

智能化是近些年数据库发展的一大趋势,而随着AI技术的突破,大模型的到来,打开了更多可能性。整体来看,数据库智能化发展分为AI4DB和DB4AI两个方面。

  • AI4DB:

数据交互层面,AI/大模型提升数据库的易用性。帮助用户、开发人员生成SQL,准确率和可信非常关键。能降低工作量,但无法替代人写SQL。

一些公司在优化器、执行器方面在进行AI/大模型的创新探索,以提升数据库性能。

在数据库运维方面,提升数据库易维护性,如进行异常检测、故障诊断、根因分析,并提供优化建议。大模型与运维知识图谱相结合增强专业知识和能力,目前大模型可以成为DBA的助手,无法解决最后一公里问题。

  • DB4AI:

随着大模型的发展,多模态数据存储和计算的需求剧增,数据库为大模型提供增强的数据管理能力,处理非结构化数据的能力。如向量数据库成为大模型的海马体,解决大模型幻觉问题,图数据库与大模型LLM结合也是大家探索的方向。

一体化融合

  • 软硬融合:新硬件的发展日新月异,软硬融合协同来增强数据库的性能、稳定性、可靠性。

  • HTAP已成标配:实时分析需求的增加使得越来越多的数据库支持HTAP,HTAP已经成为新一代数据库的标配。扩展能力、性价比、资源隔离能力、性能、稳定性等是用户选型时关注的因素,也是HTAP未来发展的重点。

  • 多模融合、超融合:随着数字化转型深入,为了满足复杂场景的多元化需求,数据库融合趋势越来越明显,通过技术融合,一种数据库解决更多场景的问题,一些厂商提出了超融合理念,引入更多负载支持。

    另一方面,也有厂商坚持专库专用,一款数据库只解决一种场景问题,打造全栈数据库产品,覆盖更多的场景。

  • 湖仓一体(Lakehouse)与Data Fabric理念结合:在数据栈变得复杂、数据孤岛不断增长的情况下,Data Fabric通过逻辑化手段实现分布式管理数据的架构理念受到关注。Lakehouse与Data Fabric相结合,解决跨系统、跨平台的大量分散数据的问题。

  • 单机分布式一体化:分布式数据库的架构不断演进,OceanBase提出的单机分布式一体化架构已成为行业趋势。虽然可能名字有异,技术实现路径不同,但是所求一致,降低分布式架构的复杂度,更好地满足不同用户的需求。

集中式vs 分布式

在关系型数据库领域,集中式与分布式的争论从未停歇过。实际上两种架构并不是取代关系,而是长期共存。

  • 集中式:

根据 CCSA TC601 大数据技术标准推进委员会发布的《数据库发展研究报告(2023年)》,在金融业、电信业,集中式数据库仍占主导地位。

打造一款集中式通用关系型数据库并不容易。近两年不少数据库厂商推出类似Oracle RAC的产品,通过共享存储集群,允许多个数据库实例同时访问、操作同一数据库。目前,有的产品只支持单写多读,多写多读是未来发展方向。

  • 分布式:

近日,IDC发布了《 IDC MarketScape 中国分布式关系型数据库2023厂商评估》,指出头部厂商优势扩大。头部厂商在分布式关系型数据库市场中重点聚焦金融行业。

沙利文联合头豹研究院发布的《2023年中国金融级分布式数据库市场报告》指出,金融级分布式数据库市场竞争格局已越来越明确,金融级分布式数据库行业步入高质量竞争阶段。

多云成为越来越多企业组织的关键战略

随着云端转型不断深入,数据库领域,多云因跨云基础设施的弹性能力、避免单一厂商锁定、满足全球数据法规及监管要求等因素受到越来越多企业的关注。

Gartner预测,到2025年,云计算支出将超过传统的IT支出,超过一半(51%)的IT支出将用于云计算。云的迁移正在推动企业优先考虑应用现代化和多云计划。Flexera近期在北美的一项调研显示,92% 的受访企业表示多云是战略优先事项,其中 76% 使用多个公有云供应商。

多云不可避免地带来管理和治理复杂性,也意味着应用及数据库必须实现云可移植性以支持多云策略。转向多云是一个复杂的问题和慎重的选择,CockroachDB、YugabyteDB、OceanBase等正在“单工作负载多云部署”的方向探索演进。

Serverless初起,数据库向云原生深处挺近

云原生数据库已经成为非常明确的发展趋势,Gartner发布的2022年全球DBMS市场份额中,亚马逊云科技的数据库超过微软成为第一。一些数据库厂商将云作为公司第二增长引擎。

Serverless是云原生数据库的下一发展方向,亚马逊云科技、阿里云、腾讯云、华为云、PingCAP等在Serverless方面不断探索创新。

在云上面使用数据库或者使用传统的 RDS,都需要按照最高的峰值要求配置,这是传统的计费模式,永远为最高的峰值付费,Serverless数据库可以做到按需付费,降低用户成本。

Serverless数据库需要解决冷启动和弹性自动扩展两大问题,核心是弹性。此外,定价策略也是每个厂商需要考虑的问题,目前各Serverless数据库的收费策略有区别,以怎样的颗粒度弹性收费,考验着厂商的技术实力和商业能力。随着更高性能的Amazon S3 Express One Zone推出,打开了新的可能性,Serverless数据库也会不断向前演进。

国产化加速,是“平替”还是“改造升级”

2023年,国产数据库在核心系统投产的消息越来越多,数据库信创国产化已经走入深水区,竞争加剧,用户对国产数据库的要求从“可用”变为“好用”。

年初业内一直在讨论是“平替”还是“改造升级”。专家认为,虽然国产数据库已经有长足的进步,但是还是需要正视与成熟商业数据库之间的差距,一些关键系统的数据库替代并不容易做到“平替”,是“平替”还是“改造”需要结合企业自身情况而定。最终并不是简单地完成替换,而是替换后系统还能很好地运行,带来新的价值。数据库的选择往往涉及到未来5-8年的底层数据架构,从技术创新角度来看,会要求数据库保持架构的持续领先。

为了保证平稳替换,国产化替换需要循序渐进,替换前多做测试验证,比如对一些常用的复杂SQL进行测试。在做替换的过程中,数据库厂商与应用厂商可以多协作,让整体替换更加平滑稳定。

小结

2023年已经成为过去时,中国数据库的突破和创新仍在路上。

有专家指出,未来制胜关键是提升数据库产品本身的能力,回到“以产品为中心”,从广泛的真实场景中不断打磨完善产品。除了产品本身,人才、生态、产品文档等是国产数据库的短板,需要产学研用共同努力。像Bytebase、D-SMART这样越来越多的数据库周边工具出现,并逐步活跃起来,说明中国数据库上下游生态正在不断完善发展。

独行快,众行远。希望在新的一年里,纵有波涛汹涌,中国数据库从业者也能像追求数据库的“稳定性”一样,有足够的定力和创新突破能力,在“稳”中求进。

1
相关文章