数据库 频道

DTCC 2024第二天:探索数据库商业化新出路与技术创新

  2024年8月22~24日,由IT168联合旗下ITPUB、ChinaUnix两大技术社区主办的第15届中国数据库技术大会(DTCC2024)在朗丽兹西山花园酒店隆重召开。

  8月23日,精彩继续。大会第二天的主会场,来自产学研用方面的专家分享了数据库前沿技术发展趋势和优秀实践,上千名嘉宾汇聚一堂,继续共享数据库领域饕餮盛宴!

  openGauss技术同创、生态共赢的自主创新发展之路

  openGauss秉承的是共建、共治、共享的原则,借助产业的力量,借助生态的力量共建openGauss社区,打造植根中国国内数据库的根技术。

▴openGauss社区秘书长 蔡亚杰

  openGauss社区秘书长蔡亚杰介绍,openGauss是面向数字基础设施的开源数据库,开源四年以来,在社区伙伴、开发者们的共同努力下,在技术上、生态上、商业上取得了一系列显著成果。2023年openGauss系数据库在线下集中式新增数据库场景的市场份额占到了21.9%,在2024年,预计该市场份额将增加达到30%以上。

  技术创新是openGauss不断发展的动力。当前数据库面临着两大趋势和挑战:一是由于不同类型以及不同厂商的数据库,他们底层的数据格式,包括传输日志不统一导致数据孤岛的问题;二是随着AI时代到来,数据库需要能够与AI协同,打造AI坚实的算力底座,结合AI支持大规模数据自调优和自运维相关的能力。

  openGauss社区针对上述两个技术趋势,提出以夯实基础底座,创新发展全场景和智能化双技术主线的策略。为了支撑两条技术主线的演进,今年社区即将发布的openGauss 6.0版本将围绕全场景和AI持续开展竞争力升级。新版本在内核上相对5.0版本来讲,性能上有了极大优化和提升,同时支持包括向量数据库引擎、KV引擎、图引擎等在内的多种数据库引擎,全面支持各种模态的数据。另外,openGauss在全栈国密、多地多中心容灾、全链路追踪故障检测方面也都有较大优化。新版本将发布基于大模型训练的智能交互平台和基于机器学习算法优化的智能调优工具。

  openGauss社区结合用户的差异化诉求,创新地设计了社区发行版、商业发行版和企业自用版3类满足不同客户诉求的版本,过去一年里三类版本都取得了高速发展。

  openGauss系数据库在行业上的案例也在持续地增长,实现了包括金融、运营商、制造、政府等关键基础行业的全行业覆盖。此外,人才培养是社区非常关注的一环,通过产教融合、人才培养,不断繁荣openGauss生态。openGauss社区一直秉承着共建共治共享的发展理念。在共享方面,重磅推出了“结队计划”,通过该计划赋能行业客户。

  以先进智能技术赋能中国品牌数据库华鼎+SUNDB

▴清华大学信息国家研究中心研究员、

清华科蓝先进智能数据库研究院院长 邢春晓

  数据作为新型生产要素,是新质生产力发展的重要动力,数据库则是支撑数据存储与计算的关键基石。全球人工智能浪潮迅猛发展,正在推动数据存算需求剧烈变化和技术创新,研究和开发数据资产化及数据要素流通的数据库技术与产品,推动我国加速向“数据强国”不断迈进。

  在此背景下,2023年10月,清华大学-科蓝软件先进智能数据库研究院正式成立,双方携手共进掌控基础、底层和源头,构建具备自主创新能力的全域生态体系,加速数据库“根技术”的原始创新和国产替代。

  先进智能数据库的发展趋势如何,又有哪些关键技术及产业应用?本届大会特别邀请了清华大学信息国家研究中心研究员、清华科蓝先进智能数据库研究院院长邢春晓,为我们带来了主题为《先进智能数据库发展趋势,关键技术及产业应用》的分享。

  清华大学和科蓝软件双方紧密合作,基于自主知识产权的SUNDB数据库和华鼎4.0提出了面向大模型的智能数据库系统架构,探索了向量数据库系统,包括向量索引、向量存储、向量生成方法、分布式向量处理系统;研究了面向大模型的数据库准备系统,包括数据治理、大模型自动训练系统,设计了大模型的智能数据分析系统,包括基于大模型的NL2SQL、RAG 技术,智能数据分析、数据智能调优、知识图谱管理。

  对于未来,邢春晓院长表示,数据是大模型的基础,数据库也是大模型不可或缺的助力,大模型对数据库提出了新的需求,也带来了新的机遇,大模型+数据库会实现1+1>2的效果。

  当前,我国正站在新一轮科技革命和产业变革的关键节点。SUNDB数据库充分发挥金融科技行业的自身优势,又结合清华学科交叉的前沿技术,原创性、颠覆性科技创新成果竞相涌现,不断塑造发展新领域新动能,对金融、电信、政府、军工、能源、交通等众多国家关键信息基础设施领域的核心业务系统都起到了重要推动作用。

  未来,科蓝SUNDB数据库将继续坚持自主研发路线,与清华携手打造先进智能数据库,发挥协同效应共建SUNDB先进智能数据库全域生态体系,推进产学研结合,持续研发创新,解决“卡脖子”技术问题,为新时期知识产权强国建设奠定坚实基础。

  十年磨一剑,天翼云自研数据库探索和实践

  数据库是IT基础设施领域重要的组成部分,天翼云紧跟数据库行业技术方向与创新趋势,十年磨一剑,积极探索下一代分布式数据库技术。

▴天翼云数据库产品线首席技术官 李跃森

  天翼云数据库产品线首席技术官李跃森介绍,目前,TeleDB在电信内部稳定运行超过10年,助力中国电信成为全球首个核心IT系统采用自研数据库全面替代的运营商。通过TeleDB的使用,中国电信IT实现大幅度降本增效。

  在云计算技术发展到当今技术环境下,各个云厂商的底层技术已经趋向于稳定,市场格局也逐渐成型。在新的时代,多云部署对于用户来讲它已经成为现实的考虑和刚性需求。在当下的多云时代,天翼云TeleDB的建设愿景是多云时代的一站式智能化云原生数据服务。致力于围绕多云时代、多样化的数据库需求,为企业数据库全栈上云提供一站式服务。

  天翼云TeleDB希望帮助用户高效上云、用云,为客户提供一站式多云数据管理和数据赋能。围绕以上技术愿景做产品布局,其数据库服务主要有三个层面构成:

  最上面是数据库生命周期管理平台DCP,这是TeleDB的数据库能力中台,在屏蔽IaaS差异的基础上为客户提供统一数据库服务入口;中间是数据库生态工具,包括数据传输服务DTS、数据管理服务DMS、数据备份服务DBS、数据自治服务DAS,生态工具是保证用户用云、上云的工具支撑体系;下面是数据库产品,包括常用的RDS托管产品,以及自研数据库产品。

  分布式架构实现了从中间件到原生分布式的架构演进,新一代TeleDB分布式数据库持续创新迭代。最新的TeleDB 5.1版本,在OLTP和OLAP能力进行增强,引入AI向量搜索引擎,满足用户多元复杂场景需求,助力客户降本增效。

  展望未来,天翼云TeleDB在技术方面,会面向超融合,把集中式/分布式一体化、OLTP&OLAP&向量搜索,整合成一套系统,为客户提供一站式的数据库服务能力;在智能化方面,打造多引擎数据库自动驾驶平台,通过AI+数据库构建智能时代新质生产力;建设原厂资深数据库专家团队和 DBA资质认证体系,为终端客户业务稳定保驾护航,为客户提供一站式可靠的数据库解决方案。

  此外,在技术生态方面,面向全国TeleDB开展认证培训,建设天翼云人才认证体系;产品生态方面,持续稳步推进上下游合作适配,繁荣数据库产品生态。

  KaiwuDB 2.0——以新“融合”架构拥抱物联网

▴浪潮KaiwuDB CTO 魏可伟

  浪潮KaiwuDB CTO魏可伟介绍,回顾数据库发展历史,从最早的层次数据库到关系数据库,再到NoSQL多元化发展,发展出很多专用数据库。天下大势分久必合,专用的数据库带来新的问题,数据的基础设施太过复杂,多模融合成为新的数据库技术发展趋势。可以看到数据库出现了从通用到细分再到整合的趋势。

  多模数据库有扩展式多模和集成式多模两个主流方向,扩展式多模像一棵树一样,从一个主干上生长出来,比如Oracle、DB2其实都是多模数据库,属于此类。国内会更多讨论集成式多模架构,将很多细分数据处理能力的数据库放在一个框架下,可以用中间件或者其他形式黏合起来对外提供服务。更像一个框,什么都能装。

  魏可伟指出,上面两种多模架构都不太理想,他提出了新的多模形态,一种面向行业的多模架构。新多模架构不仅是把所有的东西装在一个筐里,而是要把他们有机组合起来再交给用户。通过拥抱标准与生态,降低使用门槛,针对特定行业/场景提供更好的性能和更低的成本,还要符合中国自主数据库发展现状以点突破。

  KaiwuDB就是面向物联网行业的新融合架构数据库产品,今年6月发布了最新版本KaiwuDB 2.0,与1.0相比,做了很多改进,特别是从底层重新构建了数据模型。KaiwuDB 2.0的目标是能够更易用、更高效、更可靠,在性能、多模架构、分布式能力以及AI四个方向上做了很多创新。

  在时序处理性能方面,采用新的底层时序数据的存储模型,能够适用更多用户场景,在底层内存映射模型上做了很多改进,能够减少并发冲突,并且融入了很多自适应方法;在多模架构方面,提供了时序数据处理新语法,更好地贴近 SQL 标准与兼容 SQL 生态;在分布式方面,基于新的时序模型做了改进,在扩缩融方面有更好的效率;在AI方面,包括AI for DB和DB for AI,在更多数据模型的管理方面有了更智能的管理能力。

  此外,KaiwuDB社区版KWDB于8月23日正式开源,并将在9月贡献给开放原子开源基金会。

  “后战国时代”数据库商业化出路和方向探索

  战国时代最后秦统一六国,经历了很短暂的统一之后马上陷入很混乱的局面,这和数据库的产业有很大的相似之处。

▴深算院首席产品官/崖山科技副总裁 王南

  数据库产业经过数十年的发展,仍然在不断产生新的诉求。中国数据库经过多年探索和尝试,已经开始走向产业规模化应用。在百放齐放的后战国时代,国产数据库的出路在哪里?

  深算院首席产品官/崖山科技副总裁王南介绍,最近《黑神话:悟空》的火爆体现出大家对高品质游戏的渴望,而高品质才能得到大家的认可。同样的,用户对高品质的数据库也有非常深切的渴望,从业者应该为基础软件的自主和国产化不断努力,真正做出优秀的高质量数据库。

  全球数据库市场和技术经过数十年的演变,从概念的诞生、到关系模型的崛起、再到大数据理论和技术的发展,到如今新一轮的大规模投资和建设热潮,已经不单单是产品、技术、行业需求或者政策的因素。随着商业化策略从标杆灯塔工程走向产业规模化应用,市场终究要回归商业的本质:质量好的打败质量差的、便宜的打败贵的、耐心的打败浮躁的、诚信的打败背信的。群雄逐鹿的时代最后,需要大家一起寻求产业共同的生机,探索未来可能正确的出路和方向。

  技术出路要解决技术、生产力问题,从依赖开源到走向完全自主掌握。商业出路,本质上是社会的协同和分工,只有拥有很强的信任关系才能运转好。没人不想诚信,挑战是要言必信、行必果,需要有强大的技术实力、专家团队和产品能力的支撑,才能真正做到。

  YashanDB是面向企业核心的统一架构数据管理平台,去年9月发布了LTS版本,重磅发布了共享集群的能力和空间数据库的产品。今年9月将推出云产品和软硬一体化产品也会推出,共享集群产品也会发布真正的LTS版本,可以大规模应用。

  国产金融级分布式数据库迁移应用设计与开发实践

  近年来国产分布式数据库技术快速发展,在金融领域得到了大量应用,整体呈加速推进的趋势。但由于分布式数据库与单体数据库架构的差异,要充分发挥分布式数据库的优势,需要针对分布式数据库特点制定相应的设计原则和开发规范。

▴中信银行软件开发中心系统支撑领域CTO 邓琼

  中信银行软件开发中心系统支撑领域CTO邓琼介绍,国产分布式数据库快速发展为应用研发带来新挑战,一方面,对分布式数据库架构及原理不熟悉,存在数据库集群和模型设计不合理,存在高可用性不足或者资源浪费等问题。此外,分布式数据库在架构设计、使用规范等方面与单体数据库存在差异,应用开发人员由于惯性思维,无法充分发挥分布式数据库的优势。

  总体设计原则需遵循以下五点:高可用设计、高性能设计、资源合理性、数据均衡性设计、和故障隔离。

  在数据库集成架构设计方面,要根据业务的特点设计合理的架构,通常对于核心类、关键类业务系统,会采用两地三中心架构,其他的重要业务以及一般业务,会分别采用同城灾备以及高可用的架构。在数据库的集群规模评估方面,在可满足未来3~5年业务系统性能存储容量需求的原则下,合理评估集群规模。物理模型设计表分片设计原则,要减少分布式事务,避免跨分片关联,考虑数据均衡性。

  开发人员和运维人员需要注意的事项有事务控制、关联查询和SQL预处理等。大事务和长事务可能会带来查询性能和高可用问题,严重时会影响交易的正常运行,需要严格规范事务控制。分布式数据库中,由于物理数据分布在各个分片上,跨分片的关联计算有一定成本,需要注意。建议应用程序使用JDBC提供的预处理相关函数,减少资源消耗和预防SQL注入。

  当前金融行业都面临数据库种类多样、技术复杂,各数据库SQL标准不统一,应用和数据库直连、耦合性高,应用系统的数据库迁移改造难度高、工作量大等问题。

  通过建设金融级DBMesh平台,建立统一的数据库访问标准,沉淀数据库访问公共能力,填补数据库服务治理的技术空白,实现应用和数据库的真正解耦,降低数据库的应用门槛,解决行业内数据库使用痛点问题。同时为实现数据库虚拟化和IT架构向云原生演进奠定基础。

  为期三天的第十五届中国数据库技术大会(DTCC2024)正在火热进行,感谢大家的陪伴,明天精彩继续!

0
相关文章