数据库 频道

2022DTCC数据智能 :天云数据Hubble AI-Native数据库混合存储之列存

  2022年12月14日~16日,由IT168联合旗下ITPUB、ChinaUnix两大技术社区主办的第13届中国数据库技术大会(DTCC2022)线上直播。大会以“数据智能 价值创新”为主题,设置20+技术专场,重点围绕时序数据库、图数据技术、实时数仓技术与应用实践、云原生数据库、大数据平台与数据安全等内容展开分享和探讨,为广大数据领域从业人士提供一场年度的饕餮盛宴。天云数据受邀参加做“Hubble AI-Native数据库混合存储之列存”主题分享。

  从数据库的发展历程来看:IOE体系数据库利用位于系统中心的服务器统一管理所有的共享资源,并处理来自用户的请求,是面向数据结构的融合;分布式数据库是对IOE体系数据库的优化升级,是面向物理资源的融合;HTAP数据库满足互联网的数据产销合一方式带动了流程驱动向数据驱动的数据库架构转型,是面向IO资源的融合;而AI-Native数据库通过更多的逻辑计划丰富数据消费能力和形态,是面向服务的融合。天云数据分布式平台负责人乔旺龙从混合存储之列存讲如何做数据底座。

  数据底座为什么一定是混合存储的HTAP数据库?

  互联网的数据产销合一方式带动了流程驱动向数据驱动的数据库架构转型。交易、分析的两阶段体验,以及大屏小屏化个性化服务下沉。基于创新的计算存储框架,HTAP数据库能够在一份数据上同时支撑OLTP场景和OLAP场景。

  那么在HTAP出现之前,应对以上的刚需市场是怎么做的?把TP和AP做融合,成为湖仓一体的概念;然后把MPP数据库与湖仓一体融合,成为新技术趋势。实际上就是将MPP数据库加Hadoop开源。

  这种现象会带来什么风险?MPP数据库不能单独支持湖仓一体,它需要 Hbase 和 ES 来配合,本质还是属于数据集。在某大型股份制银行,为了支持手机银行端的个性化数仓,传统 MPP 结构根本没法满足刚才说的这种服务价值,要实现手机端对大屏小屏化的趋势,还要配套数百个节点,所以现在市场上的湖仓一体本质上还是一个集成方案,需要在传统MPP数据库和开源hadoop之间做大量的数据同步和一致性校验。既然要有数据同步,就必然有时间窗口,数据的不及时性、不一致性。

  这不是简单的替代逻辑,是产业链升级逻辑。面向新兴的大数据领域,新兴的数据库依然扮演着重要角色,不仅仅可以对传统数据库Oracle做碾压替代,同时还能够胜任大数据领域的刚需。而在整个流批一体的市场需求上,Hubble数据库的自身定位就具有天然优势。

  国产原创Hubble数据库,提供统一支撑事务处理和工具负载分析。如何能够在同一数据库实例下,同时支撑高并发低延迟的OLTP事务,和海量密集计算的OLAP分析作业?天云数据凭借其多年来在大数据分布式计算领域的经验以及多家大型银行的实践最终通过引入损失函数动态评价SQL逻辑计划的执行成本、CBO代价优化解析、Sharding切片线程级别物理资源匹配不同计算负载、TP和AP双引擎调度执行、随机和序列化IO对存储的访问、依靠数据副本机制同时支持KV键值存储和列存存储交出了完美的答案。这意味着一张表可以同时支持行存和列存,真正的融合了存储结构,避免了在交易和分析数据库间每夜ETL数据搬家的繁琐运维工作和数据冗余。

  时序数据库也好,图数据技术也罢,能够提供AI化能力的数据库是一个必然要走的路径

  2016年, Everything Embedded™论文指出,在数据科学面前,一个文本不同的词就是不同的向量,向量的欧拉夹角、弦距离都是可量化的,在算法面前都是结构化了。因此,多模态概念在数据科学领域已经渐渐地被洗牌掉很多了。不同的逻辑计划,无论是支持二维表结构还是Graph、图计算的相邻矩阵还是机器学习特征工程的统计、计算指标,其实都是一个逻辑计划的组合。就是你的数据库、你的计算引擎、存储引擎,除了支持标准的SQL逻辑计划,是不是还可以支持Graph、支持Machine Learning。

  以时序数据库为例,时序数据库是数据库的第三阶段,解决的是IO融合的问题。主流的时序数据库都是LSM-Tree,而HTAP面向列的AP操作大量都是LSM-Tree的变种,因此面向IO的问题HTAP就完全覆盖了。时序数据库服务能力表达是以均匀的时间戳再去以IO的方式压入数据,它回溯的方式是以时间戳来还原数据,就像看录像带一样快进、快进、快进。

  但今天在抖音上输一个标签就能把内容找出来,这意味着什么?现在解决时间序列的方法有很多种,从最早的隐马尔可夫链到现在的LSTM长短记忆算法,还有 Transformer框架都是时间序列的。这就意味着如果有AI化的能力对数据的表达,基于时间序列的表达,比如工业日志、传感器网络,可以不仅仅用均衡的时间戳来描述数据了,还有Attention框架的一些能够从权重重点要素里的抽取数据的能力,所以这就是为什么我们还要提AI-Native数据库。

  HTAP数据库已经在IO和架构层级上覆盖了时序数据库的优势,升级到AI-Native数据库的时候还会有更多的能力更多的算法框架去附带时序数据库的均匀时间分布的方法。还是看录像为例,现在不用快进、快进、快进、快进了,而是可以通过一个关键词去回溯和索引,这些能力都是AI的框架。

  互联网带来了产销合一,越来越多的数据并不是面向宏观趋势的供给,做报表、做管理驾驶舱、做仪表盘、上大屏,供给领导决策分析。互联网带来了个性化服务,淘宝推荐引擎、千人千面个性化结果,他要跑的是贝业斯网络、是协同过滤算法,是这些算法再替代SQL的可视化服务。

  所以怎么能够在同一个计算的库体上,面向机器学习的操作面向新兴的数据驱动业务的算法?AI内生数据库是一个必然要走的路径。尤其是应对产业互联网,第三波的机器数据生产,更多的物联网的机器生产、传感器,他的机器数据物理意义人理解越来越难,比如油压、温度、结蜡、工况都是一些科学属性。这些数据它很难用决策,因为它对人类来说需要更强的科学知识才能去理解。所以将会是机器生产数据,机器消费数据。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章