数据库 频道

回顾与展望:开源、智能化、隐私安全等八大数据库发展趋势

  新年换旧年之际,便到了盘点时间。随着数字经济不断发展,数据库的重要性愈发凸显。数据库技术有怎样的发展新趋势?

  ITPUB&IT168结合一些大会上嘉宾的演讲、采访,以及对市场的观察和理解,梳理出数据库技术八大趋势:开源、智能化、隐私安全、软硬一体、上云、分布式、细分场景、架构融合。

  01、开源:

  开源上升为国策联合创新发力生态

  在《开源的诱惑——数据库篇》中,我写道:开源如一个意气风发的少年,在数据库领域大展拳脚。2021年初,根据DB-Engines的数据,开源数据库license数量首次超过商业数据库,这是开源数据库的里程碑,近两年开源数据库厂商融资屡创新高,不断刷新数据库单笔最高融资纪录。

  Gartner预计,到2025年,与目前的IT支出相比,超过70%的企业将增加开源软件方面的IT支出。

  开源社区被誉为当今科技领域最具创新的一种组织方式,专家强调数据库作为公认最为复杂跨技术领域最多的基础软件,也要充分利用开源和发展开源,广泛吸纳全产业力量。尤其国内,一系列政策利好开源发展,开源纳入“十四五”规划,成为国家战略,去年11月底,工信部印发《“十四五”信息化和工业化深度融合发展规划》指出,开源软件已经成为软件产业创新源泉和“标准件库”。同时,开源开辟了产业竞争新赛道,基于全球开发者众研众用众创的开源生态正加速形成。近年来,越来越多主流数据库产品选择开源来完善生态,打磨产品。比如,openGauss、PolarDB、OceanBase、浪潮云溪等选择开源……

  业内人士指出开源发展的需要在开放源码与商业发展之间找到平衡,而当前目国内开源生态还面临发展基础较弱、底层技术掌控不足、开源文化氛围不浓、政策支持有待加强等制约因素。

  02、智能化:

  AI与数据库结合智能化发展

  北航计算机学院童咏昕教授在openGauss Summit2021峰会上指出,从学术研究角度,AI与数据库结合的智能化成为最近几年数据库顶级会议里非常热门的研究主题之一。智能化分为两个方面,AI for DB,运用AI技术优化经典数据库算法。DB for AI,运用数据库技术提升人工智能性能。

  AI for DB方面,童咏昕介绍,传统的经典数据库优化算法称为理性主义,是问题导向,针对问题直接设计算法策略,不需要依赖数据库可以直接求解,在 最坏情况下算法性能具有理论保证。最近几年尤其是2018年之后学习型算法开始流行,可以称之为经验主义,数据导向。通过学习数据分布指导模型设计,在数据服从给定分布时能够取得更优效果,可以使数据库优化算法更快,但并不是有了学习算法就无敌了,更重要的是如何把经典的理性主义和数据驱动经验主义做有机融合,这是未来非常火的方向。

  DB for AI方面,近两年数据库顶级学术研究尤其在产业研究中多篇论文都共识了一个问题,机器学习的实战性能问题,很大一部分原因是来自数据库问题,数据库经典技术优化不好导致机器学习性能不好。数据库如何协助机器学习的技术也是最近几年非常热门的研究主题。

  03、隐私安全:

  法律法规监管加强以技术解决合规问题

  在数据库研究领域,隐私安全是数据库长期关注的主题。童咏昕指出,隐私和安全是两件事,安全关心计算过程的安全,隐私所强调的是拿出结果不能反推回原始数据。上世纪80年代已经开始提出了安全计算,而隐私计算从最简单的脱敏,到匿名化隐私,再到现在相关法律法规下如何合规处理数据,带来了挑战。2021年数据库顶级会议提出把数据库隐私研究和法律合规嫁接在一起。目前有很多合规要求,在不同隐私和安全约束下,如何自动用基础算子高效集成是最近几年在数据库研究中隐私安全的热点。

  此外,多实体间如何进行安全高效的数据共享也是数据库技术热点。传统大数据计算是计算不动数据动的架构,在传统架构下需要数据离开本地,但是法律法规要求数据不能离开本地,需要数据不动计算动。数据不动计算动的联邦计算框架区别于传统集中式共享,保护各方数据隐私安全。海量移动设备的端侧拥有大量隐私数据,通过联邦学习,保证个人敏感数据不离开端侧设备本地。

  最近几年可信执行环境(TEE)是非常火热的话题,比如,软硬结合的高效密态数据库系统,基于TEE的有限内存约束,设计高效的密态数据库框架。利用TEE提升设备的安全计算性能,构建面向海量设备的数据联邦等。如何真正执行安全多方计算,如何高效执行同态加密,这些都是未来数据库发展中安全可信技术的基石,软硬协同也非常重要。

  04、软硬一体:

  新硬件带来的机遇和挑战

  软硬一体化是当下数据库研究热点之一,主要因为新硬件技术为数据库领域带来机遇与挑战。有专家曾经指出,数据库首先是一个系统,而系统就需要能够安全高效地使用有限的硬件资源。所以数据库系统的设计和发展和硬件的发展紧密相关,数据库系统设计需要考虑新硬件所带来的变化。

  童咏昕在演讲中指出,在存储、网络、计算层面,新硬件都发挥着软硬结合的威力。比如在计算层面,新硬件如何优化数据库中的智能计算,如何支撑数据的隐私安全需求成为热点研究主题。面向数据处理的专用硬件不断产生,近年来除了CPU、GPU外,TPU、NPU等各式各样面向人工智能专用型芯片在不断产生,可以利用专用芯片优化数据库中的智能计算,而CPU与GPU合理协同也是当下研究热点,CPU与GPU混合的数据库查询处理,结合不同计算内核特点进行协同异构计算。

  05、上云:

  云原生到DBaaS

  上云是大势所趋,Gartner预计,到2022年,所有数据库中的75%将被部署或迁移到云平台,只有5%被考虑遣返到本地环境。到2023年,云数据库收入将占数据库市场收入总额的50%。

  根据日前IDC发布的《2021年上半年中国关系型数据库软件市场跟踪报告》显示,2021上半年中国关系型数据库软件市场公有云关系型数据库规模6.7亿美金,同比增长50.1%。IDC发现,云数据库厂商寻求在私有云、行业客户等传统数据库市场发展,本地部署数据库市场竞争加剧。

  由于利用了云资源的优势,云数据库具备弹性好、计费模式便捷、套件生态好等特点。不过上云并一定能够节省成本,中小企业成本会降低,大型企业可能会不降反升。

  在云时代,数据库的演化经历了从采购License自建到云上托管数据库,再到云原生数据库的转变。在OLAP场景下,Snowflake为云原生数据库的发展做出了很好的表率。

  云原生最大的特点是计算存储分离,有业内专家指出,计算存储分离还不够,未来计算、存储、网络、内存等都要分离解耦,随着未来企业逐步上云,底层基础设施云化,数据库不用关注底层的硬件CPU、磁盘、网络等,而是直接面向各类云服务,资源池化、容器化,真正实现多租户应用架构,订阅收费。如此才能更好发挥云的弹性、扩展、高可用等能力。云时代一切皆向服务化发展,DBaaS(数据库即服务)的时代将要到来。

  06、分布式:

  从预演到大规模落地

  随着摩尔定律的失效,当数据量达到一定量级时,单体集中式架构的瓶颈愈发明显,采用分布式数据库往往是必经之路。总体来看,由于国内企业组织有更大的规模和数据量,对于应用分布式数据库更为迫切。

  国产数据库寄希望于通过分布式数据库实现变道超车,近几年国产数据库不断成长,在一些难点如分布式事务性、一致性,以及数据容错、灾备等高可用能力方面取得了突破,分布式数据库进入到落地阶段。这一变化可以在DTCC大会上有直观的感受,一位专家在参加完DTCC2021大会后指出,几年前分布式、一致性与CAP/BASE等话题等相关技术细节话题是DTCC大会热点,近两年在DTCC已经没有嘉宾专门演讲相关主题,说明分布式与分布式事务、一致性等这些东西在技术界已经达成共识,在这几年也已经纷纷落地为产品。

  在政策层面分布式数据库迎来利好,2021年11月底,工信部印发的《“十四五”信息化和工业化深度融合发展规划》明确,加速分布式数据库等产品研发和应用推广。

  近几年分布式数据库投产金融核心系统的消息不断出现,经过前期大量的预演和准备工作,2022年分布式数据库在国内的落地值得期待。

  07、细分场景:

  图数据库、时序数据库

 图片

  细分场景应用成为数据库的一大趋势。图数据库以及时序数据库的发展是细分场景应用的代表,根据DB-Engines,从2013年图数据库流行度趋势一骑绝尘,DB-Engines 从 2014 年起也把时序数据库作为独立的目录进行分类统计,如上图,其流行度发展势头仅次于当红炸子鸡图数据库。2019年开始,DTCC大会设置了图数据库专场,在DTCC2021数据库技术大会,图数据库专场比较火爆受到广泛关注,时序数据库相关的演讲主题也多了起来,通过梳理发现,2021年不少时序数据库创业公司获得了融资。

  图数据库是一个使用图结构进行语义查询的数据库。图是天生为相关性而生,典型的应用场景如欺诈检测,通过将问题解构为图,更容易在现有数据中获得重要的见解。有国外图数据库专家指出,图数据库方面中外基本处在同一起跑线,甚至在新软硬件协同方面走在前面。

  有专家指出,目前,图数据库还存在许多挑战需要解决,比如数据的完备性、一致性,对分布式事务的支持以及与OLAP 和 OLTP 融合等。当前,万亿大图、大规模处理以及与新硬件的融合是图数据库的热点话题。

  时序数据库全称为时间序列数据库,时序数据库指主要用于处理带时间标签(按照时间的顺序变化,即时间序列化)的数据,随着5G商用启动,IoT不断发展,进入到万物互联时代,时序数据作为大数据、机器学习、实时预测、预警的基础数据的作用更加显著,堪称万物互联时代的基石,时序数据库将迎来重大发展机遇。

  08、架构融合:

  HTAP、湖仓一体、多模、集中式与分布式一体化

  架构融合的趋势之一是HTAP混合负载场景的发展,产业界当前正基于创新的计算存储框架研发HTAP数据库,其能够基于同一套引擎同时支撑业务系统运行和分析决策场景,避免在传统架构中,在线与离线数据库之间大量的数据交互。在数据驱动决策的大势所趋下,HTAP在实时数据分析处理方面的优势愈发明显。

  湖仓一体(Lakehouse)也是目前架构融合的一大趋势,Snowflake、Databricks是其中的代表。湖仓一体解决了传统数据库仓库在数据类型支持上的局限性,可以支持结构化、非结构化、半结构化多种数据类型。湖仓一体(Lakehouse)需要打通数据仓库和数据湖两套体系,让数据和计算在湖和仓之间自由流动。

  架构融合的另一大趋势是多模(Multi-Model),Gartner 曾在 2017 年预测多模数据管理将成为未来的主要趋势,多模架构逐渐成为主流数据库的选择。2010 年以来,随着移动化的发展以及数字化转型的逐步深化,快速变化的业务场景越来越复杂多元,半结构化、非结构化数据海量增长,单模型数据库虽然优化了数据存储和处理,却难以满足日趋增长的多样化业务场景需求。复杂多元的业务场景往往需要使用多种数据模型,以及数据模型间的融合。从单一数据管理系统到融合型、多模型数据管理系统成为数据库发展趋势。

  集中式与分布式一体化融合,OceanBase提出的第三代企业级分布式数据库所拥有的一体化架构特性,集中式与分布式一体化融合是一个比较新的概念,数据库系统同时具备分布式与集中式系统的技术优势,即使使用一台机器不用分布式时性能、功能不损失,而且能够随时进行分布式扩展。业务初期一台机器就可以先用起来,随着业务增长系统能力遇到瓶颈再做扩展。

  回看数据库发展趋势,我们可以看到天下大势分久必合合久必分,业务场景复杂多元化需求催生了图数据库、时序数据库等满足细分场景的数据库发展,而多个单模数据库所带来的管理复杂度等因素又促进多模融合架构发展。世上没有完美的数据库,也从来没有一款数据库可以包打天下,只有适合自己业务的数据库。面对百花齐放的数据库,如何进行数据库选型?ITPUB&IT168将在2022年推出数据库选型相关选题,敬请关注。

0
相关文章