数据库 频道

浪潮KaiwuDB魏可伟:回归用户本位,打造“小而全”的数据库

  引言

  2023年,国内数据库市场热度不减。阿里云发布数据库独立品牌“瑶池”,腾讯云数据库 TDSQL 进行了TPC-C 基准测试,浪潮正式官宣自研的企业级分布式多模数据库KaiwuDB。放眼望去,现如今百家争鸣的数据库市场,各家企业的产品规划路线并非一致:有追求“大而全”的标准化产品,有追求性能数据全项第一,也有紧跟国际热点技术快速反应。我们不禁要问:什么才是现代数据库的评判标准?

  作为后起之秀,KaiwuDB的研发观点和产品思路略有不同,其意在打造面向AIoT的“小而全”的产品体系。在 DTCC 2023大会召开之际,笔者深度对话浪潮KaiwuDB CTO 魏可伟,就数据库架构演进、内核引擎设计以及不同技术路线的选择展开讨论。

 ▲浪潮KaiwuDB CTO 魏可伟

  多模架构,用“小而全”为用户减负

“从传统关系型数据库主导市场,到NoSQL数据库兴起,再到时序数据库,图数据库,向量数据库百花齐放,今天的多模数据库旨在化繁为简,支持多种数据模型统一管理。”魏可伟表示,多模式数据库是数据管理系统不断演进的结果,多种类型的数据库系统混用带来的开发和运维压力,使得企业不得不做出新的选择。

  四十多年前,企业的数据量还没那么大,会把关键业务数据放在关系型数据库上。随着软硬件的发展,计算和存储成本不断降低,数据库技术进入新的发展阶段。以物联网场景为例,这是一个由各种新技术相互交错形成的 “泛”行业,看似宽口进,实则门槛高。物联网与5G、工业4.0、工业物联网、车联网、人工智能等形成“组合拳”,为各个行业的数字化转型赋能,但也带来了业务系统的复杂性。当数据来自时序、文档、空间、图等多个数据源,各数据源又有不同的数据库系统、接口服务等,导致最终的数据采集不完整,出现数据不一致的现象。

  所谓“术业有专攻”,专库专用在一段时间里成为“专宠”,但也造成了数据孤岛。通常情况下,一家企业使用的关系型数据库是A家,时序数据库又是B家,同时可能还有C家的AI平台,这意味着企业要有身兼多种技能的开发和运维人才;否则,一旦涉及到新功能及多个产品之间的协同,就会影响迭代速度。如果能用一套数据库去替换原来多套不统一的数据库类型,来解决业务的复杂性以及开发和运维成本不断攀升的问题,那企业面临的很多问题也会迎刃而解。多模数据库可能就是一个好答案。

  在魏可伟看来,业内主流的多模数据库可大致归结为两种路线:

  一、粘合式,即大而全的平台式多模——把各种不同类型的数据处理引擎,包括关系引擎,集成在一起,上层以中间件的形式对外提供一个统一接口,进行数据的分发、转换等工作。现实情况是,很多大而全的功能在实际业务场景中根本用不上。具体到上层的引擎,为了实现多模的能力,粘合式路线会把所有引擎都拉到一个中间层,再做数据搬动,给开发和运维带来极大的压力。

  二、生长式,以关系型数据库为主——为了处理图、文档等NoSQL数据扩展出新的能力;同时,除了关系型数据库厂商,图数据库、空间数据库厂商也在基于自己的本行向新的能力扩展,这都属于生长式。这种模式相对适用于有一个传统应用,又想基于原有应用做少量的异构数据扩展的情况。比如:金融行业的交易处理是日常应用,同时需要扩展少量的空间数据库满足业务需求,这种业务场景更适合用生长式数据库。但生长式多模架构在后期扩展能力上存在一定局限,此前主体数据库架构可能根本就不支持新功能的扩展。

  有别于上述两种情形,KaiwuDB自研原生多模系统,从顶层设计上天然具备横向融合、纵向精专的能力。依托"就地计算"、"原生AI"等核心技术快速支持时序数据、内存数据、关系型数据等在同一数据库中统一汇存、处理及AI智能分析。最大特色是统一的SQL语法、统一的数据库命令、统一的开发运维工具、统一的安全认证,能够将不同数据库功能充分融合,实现一库多用,进而降低用户的使用成本,用魏可伟的话说,就是“小而全”。

  魏可伟强调:KaiwuDB一直在思考多模架构到底做到何种程度才能满足IoT领域用户的需求而又能做到简单易用?首先,时序数据处理的性能和扩展能力一定是高要求,然后要想办法降低存储成本;其次,要提供符合IoT数据特征的数据管理工具以及数据库自治的能力;其三,要分析为先、AI为先,能够从海量数据中挖掘出数据价值,为IoT业务场景提供专业的服务。

  此种背景下,KaiwuDB给自己的定位是,在设计上有横有纵,打造一个“又融又专”的多模架构。 “专”,指针对不同的数据类型,开发能发挥最大性能的专用数据处理引擎,例如KaiwuDB开发的时序引擎,利用“就地计算”技术可以实现每秒数百万级的数据写入,毫秒级处理千万级数据的分析查询。“融”,是指融合多个专用引擎以支持IoT业务场景,在多个专用引擎之间形成统一的优化,统一的管理,同时又根据IoT数据处理的特点建立“快速通道”;比如,在数据写入场景中,KaiwuDB会优先考虑时序数据的写入性能并做优化,从而实现专用时序数据库的时序数据处理性能,这就与传统“粘合式”和“生长式”的数据库形成本质区别。再有,KaiwuDB会为时序数据到关系数据分析的内部“ETL”流程“打开快车道”,从而提升性能并节约资源。

  站在用户本位,以数据库创新技术简化应用,让产品功能无限地贴近用户需求,是以KaiwuDB为代表的新生代数据库一直在努力的方向。

  AI引擎,为企业插上数智化升级翅膀

  相较于对热点大模型技术的趋之若鹜, KaiwuDB强调“原生AI”的概念。

  魏可伟介绍道,在AI for DB方向上,KaiwuDB利用AI引擎实现数据库自治。比如,在时序数据场景中,会以时间维度进行数据的聚合分析,这背后的一项关键技术是智能预计算——即利用AI大脑预判用户会对哪些内容会做聚合分析,提前把结果计算好。这一能力可快速实现结果反馈,极大程度提升性能;在生命周期管理方面,也可以通过AI对用户使用情况做出预判,如果AI预判用户对某一类数据不再频繁调用,可以自动挪到冷存储上,降低资源占用。

  在DB for AI研发方向,KaiwuDB的“原生AI“概念并非要打造TensorFlow这样的AI框架,即:不是去做算法,而是在多模的框架下拥抱生态,为用户提供更好的消费AI的能力,这种能力可以概括为“ModelOps in DB”。ModelOps in DB的理念是:让用户通过数据库更好地使用AI,通过数据处理拉近数据科学家和开发运维人员的距离。通过ModelOps in DB,能够提高模型训练和预测的性能,保证数据的安全性,更能够利用数据保持模型的准确性。例如,当用户把数据拉出到AI平台训练模型,用来做业务预测,刚开始的时候可能准确率很高,但随着时间的推移会产生漂移现象,也就是模型准确率会下降。这是因为用来训练模型的数据已经过时了,而通过原生AI的能力,在数据库中就可以第一时间发现漂移现象,做出相应的反应。

  “大模型给我们一个非常有意思的启发,如果自然语言变成数据库角度的一个接口,多模会变成一个更自然的选择。” 魏可伟分析道,SQL生态已经发展了几十年,有很多成熟的工具构建,是一个关键的数据库接口。站在大模型的风口,我们再去看多模的未来,各种专用引擎会在自然语言的交互方式下统一起来,人人都可以在低门槛的状态下使用数据库,这应该会是多模的终极形态。

  魏可伟表示,在KaiwuDB技术团队中,有很多开发人员致力于AI方向,解决AI落地的消费性问题,这也是AI和数据库结合的关键点。未来,KaiwuDB除了在异构数据跟AI结合的方向上进行努力,在用户关注的重要场景上持续发力,也会关注大模型的支持,比如:引入向量数据库,在现有的多模架构上,再多出一模。

  今天,在AI技术推动下,数据处理能力也在不断演进,诸多企业正在把数据对象里的信息抽取,无论是什么对象,或者无论是什么实体所包含的语义信息,都可以变成一个向量,然后再进行分析。而嵌入向量功能的数据库,会更好地支持AI应用。因此,AI和数据库正以相互作用的形态,共同进步,释放用户的数据消费潜力。

  小结:

  不管是多模数据库本身的发展,还是与AI的结合,KaiwuDB都表现出了自己独特的坚守,那就是——回归用户本位,专注于打造一款“小而全”的数据库产品。在面对国内外用户对于产品性能与产品性价比“既要又要”的挑战下,我们期待如KaiwuDB一样新生代的数据库走出自己的新路子,给市场与用户带来更多的惊喜。

0
相关文章