时序数据库在最近几年变得越来越受欢迎,未来5年时序数据库市场也将迎来爆发性增长,在金融、医疗、工业等领域都有很大的应用前景。
东方国信作为中国大数据领域的龙头企业之一,积极投入在时序数据库、工业互联网、数据科学、5G、云计算等领域进行技术孵化,构建多元多层次的大数据技术生态。
近日,东方国信时序数据库负责人王超、时序数据库部门架构师戚厚亮在接受记者采访时表示,随着互联网和物联网的不断发展,越来越多的应用场景需要处理大量的实时数据,对于时序数据库产品而言,在提升性能的同时,最重要的还是要能够满足用户需求,而不能单纯抛开需求谈产品性能。
问题 1:现在数据库市场百花齐放,图数据库、时序数据库都是其中比较小的分类,怎么定义时序数据库的?是不是加了一个时间标签,或者还要附加什么才能称之为时序数据库?
时序数据库主要是为了存储带有时间戳的数据,但是并不是说所有带时间标签的数据都合适让时序数据库来处理,这个还要看业务场景,比如一些交易数据,也是带有时间戳的,但是其业务主要是一些事务型的写入,写入量不大,查询也比较简单,这种可能用关系型数据库就够了。时序数据库能力主要体现在高性能,7*24小时不间断数据采集,入库,以及存储的高压缩率。
从起源上来说,时序数据库是起源于对服务器资源等使用情况的指标监控,随着互联网技术的发展,对服务器运维等能力也提出了要求,因为服务器比较多,每时每刻都在产生数据,就需要一个能够用于采集,存储,展示服务器运行指标的数据库系统,时序数据库最早也是用于这类场景。时序数据库的优势是可以高效的对采集的数据进行存储,处理,并且提供超高的数据压缩比。随着互联网和物联网的不断发展,越来越多的应用场景需要处理大量的实时数据,而传统的关系型数据库无法满足这种需求。
问题 2:时序数据库在哪些行业比较有优势,包括物联网这些行业是不是适合选择时序数据库?
在工业场景和设备监控场景、车联网场景是比较适合的。时序数据库可以快速地插入和查询带有时间戳的数据,并且能够自动管理过期数据,提供极高的数据压缩比,以减少数据存储空间。此外,时序数据库还具备处理大规模数据的能力,可以水平扩展以支持高并发访问和大规模数据存储。这些特性使得时序数据库能够广泛应用于物联网、工业等领域的实时监控、预测以及异常检测等应用场景。
东方国信研发的行云时序数据库多年来专注在大数据和工业领域,结合我公司自主研发的工业互联网平台产品 Cloudiip 可实现对海量时序数据的采集、存储、计算、传输、展现、分析等各个环节的高效管理,特别适用于工业自动化、生产管理、节能环保、智能电网、智慧城市、物联网等领域。
问题 3:怎么看待时序数据库的发展?针对这种发展趋势有没有什么布局?
随着5G、物联网、工业互联网等产业规模化落地,端边云协同化成为重要发展趋势。在终端侧,传感器、物联设备实现业务现场生产运行等各类数据源全面感知采集;在边缘侧,边缘网关、物联网边缘计算平台通过数据协议转换、边缘流式数据处理、边缘时序数据库等技术,实现异构数据接入、边缘处理、边缘存储、数据转发;在中心云,统一接入和汇聚设备生产、经营管理、第三方数据等,结合大数据管理、人工智能训练、可视化展示、数据安全等技术,构建生产、运营、运维等数据统一汇聚集成、大规模存储、智能分析等协同体系,有效提升数据应用水平和能力。
实时数据库主要应用在端侧,时序数据库相比实时数据库,缺少端侧工业领域专家模型的积累;相比于云侧的实时数仓,又缺少强大的分析能力。
东方国信的工业互联网平台Cloudiip已经在工业领域积累了数个垂直领域的专家模型,比如智慧煤矿,新能源、电力等领域。在云侧,依托于东方国信历时10多年自主研发的CirroData-AP分析型数据库以及数据科学云,可以提供强大的智能分析能力。CirroData-TimeS已经做到与Cloudiip和CirroData-AP等产品的深度集成,可以为客户提供自下而上的,数据采集,数据存储,数据分析,数据应用等一整套端边云解决方案。
问题 4:对时序数据库的发展有没有什么建议?开源、生态和人才方面有没有什么需求?
东方国信是非常拥抱开源的,CirroData-TimeS团队也给开源社区贡献了大量的功能和特性。在未来发展方面,CirroData-TimeS会继续与东方国信其他产品线集成,增强CirroData-TimeS的能力,提供更加完善的解决方案。我们认为,目前OT和IT之间融合的还不够,懂OT的不懂IT,或者懂IT的不懂OT,导致一直没有出现真正的工业级产品,不能对生产线及时管控,进而提升效率。如果加大人才的交流,培养复合型人才,会对整个行业有很大好处。当前,国内的时序数据库产品各有特色,但大多是作为数据类产品,没有真正适配工业领域的软件,体现时序数据库特色能力。最后,在生态层面,主要是围绕开源去做。用户可以直接从开源无缝迁移到我们的企业级产品上来,东方国信是积极拥抱开源的,软件也都做到了自主可控,我们的周边产品、大数据产品也都比较丰富。
问题 5:当前时序数据库产品比较多,你们的优势是什么?
我们一个比较大的优势,是和工业场景结合的比较紧密,可以为客户提供数据采集、存储、分析在内一整套的解决方案、落地场景和配套服务。此外,和有的公司是组建独立团队去做工业场景不同,东方国信是整个公司层面围绕To B的场景去做落地渠道、落地场景,这些是最大的优势。
多年来,东方国信一直扎根大数据领域,在工业领域深耕,针对行业需求去做落地方案。东方国信做自己的时序数据库,有天然的需求和优势,因为是立足于这个行业,才会看到市场机遇,然后去满足行业的需求。
问题 6:现在时序数据库有没有什么路线之争?
目前来看,时序数据库产品大概有如下四种路线之争:
一是基于传统的关系型数据库做改造,比如基于HBase的Open TSDB, 基于PostgreSQL的timescledb;
第二种是原生的时序数据库,专门针对时序数据而设计的存储结构,查询引擎等。
第三种是针对特定领域的时序数据库,比如针对金融领域的等。为特定领域的场景做了大量的优化。
第四种是号称融合型的产品,可以解决一些AP,TP,时序等融合的场景,但是肯定是有一些侧重点,不会做到面面俱到。
东方国信的CirroData-TimeS是原生的时序数据库,并且针对公司的大量业务场景,做了 大量的优化,把性能做到极致。然后在落地场景中不断优化。所以是把产品的优势和公司本身的优势相结合。
对于产品的评价方面,还是要看产品是否能够更好地满足用户需求,不能单纯抛开需求谈产品本身的性能。
问题 7:面对客户的时候,他们选型会关注哪些指标?包括读写性能,是不是开源,还有哪些指标?
客户关注点如果排个序的话,就是读写指标、数据压缩、资源可用、是否支持国产化平台、有没有扩展性。
分别来看的话,读写速度是企业选择时序数据库时最为关注的指标之一。时序数据95%-99%的操作都是写操作,是典型的写多读少的数据。这与其数据特性相关,例如监控数据,监控项可能很多,但是真正去读的可能比较少,通常只会关心几个特定的关键指标或者在特定的场景下才会去读数据。
物联网类型企业通常存储和处理海量数据,又有严格的存储成本和带宽限制,因此数据压缩是客户在选择时序数据库时需要考虑的一个重要因素。在选择时序数据库时,也需要考虑是否有足够的资源来满足自身的需求。这些资源包括技术支持、开发工具、文档等等。有一些公司,它对系统的运行状态要求比较高,但它又不是系统的开发者,因此需要比较专业的运维服务支持的能力。比如说,东方国信面向的客户大多会有自己的私有云,基本不会介意产品是不是开源,但会比较关注能够获得哪些服务和支持。
问题 8:您觉得他们关心的这些指标是必要的吗?
客户关注的指标都是必要的。因为这些指标决定了选择时序数据库产品的时候是否和自身的场景相适应,是否符合自己的特性。就时序数据库而言,也并不是所有时序数据库类型都是一模一样的,包括建模方式、读写指标、优化特征,不同的时序数据库产品可能针对某些场景是具有一定的优势,所以要把基本的指标对照自身场景来看是否适用。
问题 9:客户在做时序数据库选型的时候应该做哪些准备?如何选择一个比较合适自己的数据库?
首先,用户需要关注时序数据库应该具备的指标,包括对时序数据的高效读写、压缩存储和实时计算能力,另外还有是否具有比较强的分析能力,是否能够把自己处理的逻辑下放到数据库里面,提高数据的效率。
在选择数据库的时候,用户应该在几个层面上进行注意,首先是选择的数据库产品要能够支撑高并发、高吞吐的写入,如上所说,时序数据具有典型的写多读少特征,其中 95%-99%的操作都是写。在读和写上,首要权衡的是写的能力。由于其场景的特点,对于数据库的高并发、高吞吐写入能力有很高的要求;其次是要具备交互级的聚合查询。交互级的查询延迟,并且是在数据基数(TB 级)较大的情况下,也能够达到很低的查询延迟;第三是能够支撑海量数据存储,场景的特点决定了数据的量级,至少是 TB 的量级,甚至是 PB 级数据;第四是高可用,在线服务的场景下,对可用性要求也会很高。还有一点是选择的产品是分布式架构,鉴于写入和存储量的要求,底层若不是分布式架构基本达不到目标。