数据库 频道

星环科技:高效存储、压缩效率是时序数据库选型关键

  随着工业4.0、智能交通、智慧城市等领域的快速发展,时间序列数据在各个行业中得到了广泛应用。这些数据通常具有高频率、高并发、高噪声等特点,因此需要专门针对时间序列数据进行存储和处理的数据库系统来支持。

  时序数据库作为专门为时间序列数据设计的数据库系统,具有高效的数据存储和查询能力,支持大规模时间序列数据的存储、分析和可视化。

星环科技时序数据库高级研发经理 雷天洋

  但是对于时序数据库选型而言,需要考虑一系列的技术和市场因素,IT168的记者本次有幸采访到了星环科技时序数据库高级研发经理雷天洋,从时序数据库的定义开启,针对时序数据库的应用优势行业、发展趋势以及时序数据库选型的关键指标等问题,进行了深入探讨,让用户在专家的帮助下,进行时序数据库选型。

  问题1、现在数据库市场百花齐放,时序数据库只是其中一个小的分类,您怎么定义时序数据库,就是加了时间标签的数据库?时序数据库在哪些行业应用上有优势,或者说哪些行业的人应该选择时序数据库?

  (1)时序数据库的定义:

  时序数据库是一种专门用于存储和处理时间序列数据的数据库系统,具备高效的时间序列数据存储和查询能力,以支持大规模时间序列数据的存储、分析和可视化。

  作为专门用于处理时间数据的数据库系统,在设计和功能上与传统数据库有显著区别,并非简单添加了时间标签的数据库。时序数据库优化了带时间戳数据的存储方式,保障了高效的时序数据写入和查询性能、支持基于时间窗口的数据聚合和分析、通常包含传统数据库不具备的数据压缩算法,减少存储空间的占用、并会采用针对时序数据优化的索引方式来提升检索效率。

  (2)时序数据库的行业应用:

  时序数据库广泛应用在物联网、工业制造、金融、能源、汽车、智慧城市等行业及领域。

  星环科技分布式时序数据库TimeLyre可以有效支撑物联网、能源制造、金融量化交易领域多种时序数据业务场景。

  1、物联网:TimeLyre可以提供毫秒级的时序检索,支持海量时序数据分析,如趋势分析、数据统计等,充分契合物联网领域数据存储和检索分析的需求。可广泛用于智能硬件、大型联网装备、智慧家庭、智慧城市、智慧矿山、智慧水务、智慧农业等领域。

  2、能源制造:能源、制造业等工业企业广泛使用传感器采集生产数据,由于工业物联网数据是时序的且传感器的采集频率非常高,因此工业物联网时序数据呈现海量性、关联性、时效性、实时性等特点。TimeLyre时序数据库支持海量设备测点数据同时入库的需求,流式实时数据导入可以达到每秒千万个数据点级,可以完美应对工业场景的数据入库需求。

  3、金融量化交易:金融行业每天存在大规模高频访问交易量,这些时序数据由于量太大,对写入与分析性能以及实时性要求很高,同时也有非常高的可拓展性要求。在支持海量时序数据流式插入、时序数据的高速检索的前提下,TimeLyre使用分布式架构,可以横向扩展,提供数据一致性和多副本容灾的可拓展性解决方案。

  问题2、您怎么看待时序数据库发展趋势?针对这些趋势,贵司有哪些布局?针对国内时序数据库的发展,您有什么建议(比方说生态、人才等等方面)?

  (1)时序数据库的发展趋势:

  超融合时序数据库:融合是未来几年数据库发展的主旋律之一,数据库的边界正在变得越来越模糊,未来将会出现组织更为复杂、功能更为强大,对多模数据适应能力更强的时序数据库。

  边缘计算服务能力:在万物互联的时代,更多的传感器带来的庞大数据量是集中化处理方式难以负荷的,这就使得数据计算向边缘化发展,设备将数据通过边缘设备进行实时处理分析反馈后再集中存诸,能够提高设备的实时响应能力,提升时效性数据的价值,因此,时序数据库对边缘计算的支持将成为其一个重要的功能。

  云原生和多云集成:云计算的普及推动时序数据库向云原生架构转变,同时也在实现与多云环境的更好集成,以提供灵活性和扩展性。

  智能时序数据库:随着AI技术的快速发展,一方面时序数据库开始集成机器学习和AI功能,帮助用户更容易地针对时序数据进行预测分析;另一方面通过智能分析数据库运行过程中的各种指标数据,有利于进一步降低运维难度,使时序数据库本身更智能。

  方便易用:未来的时序数据库需要支持主流的查询语言、提供交互式的控制台来管理运行的数据库或执行即席查询、使用主流的编程语言提供示例代码、提供一个到多个方使高效的数据导入导出工具等。

  (2)星环科技时序数据库布局:

  多模数据支持:星环科技将TimeLyre时序数据库与大数据生态系统进行了整合,使其能够更好地支撑多模数据的统一管理、处理和分析大数据集中的时序信息。

  边缘计算服务:结合星环科技智能分析工具Sophon和边缘计算平台Sophon Edge,TimeLyre可以为云边端一体架构的工业互联网平台建设提供有力支撑,可实现海量工业时序数据的聚合、关联分析,并能与分布式分析型数据库ArgoDB跨库关联,满足多种业务场景的查询与分析。

  云原生和多云环境支持:结合星环科技采用容器云技术的数据云平台,TimeLyre支持云原生部署,可以在各种云环境中灵活部署和运行。

  分布式架构:TimeLyre采用分布式架构,能够处理大量的数据点和高并发的数据请求,支持集群在线灵活拓展,能够有效应对海量时序数据的存储分析需求。

  智能时序数据库:TimeLyre可以与星环科技向量数据库Hippo、智能分析工具Sophon、领域大模型、知识中台TKS等机器学习和数据智能产品联合使用,实现对时序数据的智能分析,提升数据库的智能化程度。

  易用性:TimeLyre支持支持通过标准SQL进行数据分析,降低用户使用门槛;支持主流的SQL模块化扩展,兼容通用开发框架和工具;提供Python API支持,充分适应金融行业量化投研领域的强烈需求,帮助从业人员快速上手。

  问题3、时序数据是数据库中一个小的分类,它的市场规模有多大?现在时序数据库技术路线之争么?如果有都有哪些?属于哪个技术路线,选择这个技术路线的原因是什么?您对时序数据库市场有什么预期?贵司时序数据库的典型应用场景有哪些?

  (1)时序数据库的市场规模

  时序数据库的发展主要受到IoT设备数量、工业互联网建设等因素的影响,现阶段IoT设备持续增长,工业互联网建设的热潮仍在持续,在可预见的未来,时序数据库的市场规模有望持续增长。

  (2)时序数据库的技术路线

  分布式能力:不同时序数据库在处理大规模分布式数据时的效率和性能各不相同,对分布式存储、计算和运行的支持能力所有差异。部分数据库的复杂操作需要把数据汇总到单机再进行计算,运行时只能利用每台机器少量CPU核心,这类数据库在中低频数据处理上具有一定优势。另外一些时序数据库采用分布式架构,具有较强的分布式存储、计算和运行能力,在大数据集和高频数据处理场景中具有性能优势。

  设计模式:存储引擎方面,有采用自研引擎或者采用现有关系型数据库等方式;数据模型方面,部分时序数据库设计了较为复杂的表结构存储不同类型、不同格式的时序数据;数据压缩能力方面,不同时序数据库支持的压缩算法种类和数量也有所区别。

  弹性扩容能力:部分时序数据库采用离线方式扩展数据节点,扩容后需手动迁移数据实现负载均衡。另一些时序数据库能够根据需求动态扩展节点数据,扩容后会有自动rebalance操作保障负载均衡。

  安装部署运维:有些数据库采用开源工具实现运维监控,而另一些时序数据库提供图形化的安装部署和运维监控界面。

  星环科技TimeLyre时序数据库采用原生分布式架构,支持集群在线扩容,满足海量时序数据存储和分析需求。自研存储引擎使用类LSM-Tree技术,提供高吞吐的实时插入、高性能的时序数据检索,数据模型简单易上手,同时提供Delta编码、类型编码、场景数据编码等多种编码模式和snapyy、gzip、lzo、zstd等常用压缩算法实现时序数据的高水平无损压缩。具备图形化快速安装和部署能力,数据收集与运维监控不依赖于国外开源组件(Telegraf + Grafana等),实现完全国产化。

  问题4、贵司的时序数据库产品,产品具有很高的压缩率可以支持时序数据的存储,提供高吞吐实时写入、时序精确查询、多维检索等功能,这些核心技术优势的价值能不能给我们总结一下?都会给客户带来哪些实际价值?

  星环科技TimeLyre采用行业领先的高水平数据压缩优化技术,在常见的时序数据上可实现5-20倍的压缩率,提高了资源的利用率,可以大幅降低用户硬件成本;TimeLyre实时写入具备高吞吐、高并发,每秒千万级数据点插入的性能,可以保证数据检索的实效性,可以帮助企业搭建实时数仓;TimeLyre内置多种索引结构,时序数据的检索达到毫秒级低延迟响应,优化用户查询体验,同时支持海量时序数据的计算与分析,覆盖关联查询、聚合查询、嵌套查询等多种复杂SQL功能,为客户提供复杂场景构筑能力。此外通过与星环科技大数据生态相融合,TimeLyre提供不同模型的数据同时进行关联等复杂分析的解决方案,多模分析可以有效地打破数据存储管理屏障,实现业务数据的统一管理和数据融合。

  问题5、您怎么看待时序数据库的发展趋势(例如和AIGC的结合应用),针对这些趋势,星环有哪些产品上的布局?

  (1)AIGC采用人工智能技术来自动生产内容,可以大幅提升时序数据分析的效率,以及与其他模态数据的融合分析。同时大模型本身存在一些局限性,比如知识实时性不够,回答不准,存在AI幻觉等问题。业内的通用做法是外挂向量数据库来作为外部知识库,来给大模型补充实时知识和提高准确率,我们称为检索增强生成技术RAG,星环科技也有自研的向量数据库Transwarp Hippo。而向量数据库一方面偏向于处理非结构化数据,一方面单一个向量数据库可能在准确度方面的提升还不够,需要融合图数据库、时序数据库等来进一步提高准确度,尤其是前面提到的金融场景下时序数据产生的非常快,量非常大。所有的这些数据类型都可以作为大模型的外挂存储,它的准确度会比使用单个模型更精准。

  那对于这么多类型的数据处理,我们就需要一个统一的技术架构,如我们星环科技创新的多模型统一技术架构,有统一的接口、统一的计算引擎、统一的存储管理、统一的资源管理,让用户更高效、更简单的去存储和处理多模型数据。

  (2)前面提到的通用大模型存在一些局限性,在企业落地时,需要选择合适的领域语料,加以改造和二次开发。星环科技有大模型持续开发和训练工具Sophon LLMOps,针对大语言模型及其衍生数据、模型和应用方面的问题,Sophon LLMOps工具链需要完成从通用大语言模型的训练和微调、模型上架到模型持续运营及提升迭代的全流程任务,从而成功构建满足企业自身业务特点的领域大语言模型。

  (3)为了加快企业快速落地大模型应用,星环科技推出了金融和大数据分析两款领域大模型。

  金融大模型星环“无涯”是一款面向金融量化领域的生成式大语言模型,具备超大规模的参数量。相较于通用大模型,金融大模型更加擅长处理金融量化领域各类问题,包括政策和研报分析、新闻解读、事件总结和演绎推理等方面,具备强大的理解和生成能力,能够全面复盘、传播和推演股票、债券、基金、商品等多种市场事件,并生成另类的策略因子集合,构建立体的归因解释体系。金融领域大模型还能够从时间和空间、深度和广度等多个方面扩展投资研究的视角,实现全新的智能量化投研范式。

  大数据分析大模型SoLar星环“求索”具备自然语言描述涉及多种数据模型的复杂业务需求的能力。该模型采用 THD特有的“多模型”技术,能够对不同模态 ( 如图数据、文本数据、结构化数据 ) 的数据进行关联分析和展示。大数据分析大模型使用海量的 SQL编译语料,形成了NL2SQL的能力,并支持通过自然语言生成可成功执行的SQL或Cypher,从而快速获取查询结果。该模型运用智能算法作为数据查询和分析的智能副手,帮助数据工程师、数据科学家及业务人员更好地使用数据,并且让数据库查询变得平民化,以便非专业用户在不需要学习和掌握数据库编程语言的前提下,通过自然语言进行数据查询。

  问题6、您的客户在选择时序数据库时都关注哪些指标,您认为他们关注的这些指标是必要的么?为什么,有哪些建议?

  (1)海量时序数据的存储能力

  分布式架构在海量数据存储、可扩展性、数据容灾方面具有明显优势,在面向大规模时序数据查询分析时,分布式相关能力能够构建更为健壮的系统。用户会比较关注时序数据库是否具备分布式存储能力、分布式计算能力、容错能力等。

  星环TimeLyre采用原生分布式架构,支持集群在线灵活扩容,可以轻松实现海量时序数据的存储分析。

  (2)时序数据的压缩能力

  由于时序数据存在数据量大、持续产生等特点,用户在选择时序数据库时通常会关注数据库对时序数据的压缩能力,包括数据编码方式、压缩算法、压缩率等。

  星环TimeLyre提供多场景数据灵活、高效的压缩解决方案,不仅支持snapyy、gzip、lzo、zstd等常用压缩算法,还提供Delta编码、行业特征编码等编码方式,同时能够提供无损、有损等多种数据压缩解决方案,帮助客户提供数据压缩率,节约硬件成本。

  (3)时序数据的吞吐、并发能力

  用户通常会关注时序数据库针对海量时序数据的吞吐、并发能力。

  星环TimeLyre支持实时、批量等多种数据写入方式,具备高吞吐、高并发能力,可实现每秒千万级数据点插入的性能。

  (4)时序数据的查询分析能力

  用户比较关注时序数据库能否实现海量时序数据检索的快速响应,是否具备复杂查询、分析功能。

  星环TimeLyre支持多种索引结构,能够实现时序数据检索毫秒级低延迟响应;支持事务特性,保障时序数据查询分析的准确性;支持关联查询、聚合查询、嵌套查询等多种复杂SQL分析功能,提供复杂场景构筑能力。

  (5)时序数据库的兼容能力

  用户比较关注时序数据库是否能够兼容各类IoT设备的多种协议,能否应对来自不同传感器和数据源的多源异构数据。

  星环TimeLyre支持通过SQL、文件载入、API以及多种工业物联网通信协议入库,可以满足各种复杂业务场景的需求,支持多数据源、多数据格式迁移导入。同时针对金融场景提供了Python API接口,方便业务人员操作。此外TimeLyre支持通过标准SQL进行数据分析,降低用户使用门槛,支持主流的SQL模块化扩展,兼容通用开发框架和工具。

  (6)国产化能力

  近些年用户对数据库国产化的要求不断提高,特别是金融、能源、制造等时序数据库的典型应用场景都有一定的信创要求。

  星环TimeLyre提供一站式国产化替代解决方案,支持业内主流的操作系统和芯片,支持国产操作系统和国产服务器,支持混合架构部署,满足各类信创软硬件环境需求,帮助用户逐步实现国产化平滑替代。

  问题7、客户在时序数据库选型的时候应该做哪些准备,实际操作流程有哪些?能不能以一个行业为例来说明下流程?

  使用星环TimeLyre时序数据库需要准备相应的环境,需首先安装星环科技大数据平台产品TDH,在安装后即可便捷地使用运维监控组件DBA service与安全访问控制组件Guardian,在此之后可以安装TimeLyre服务。

  下面以气象站点数据采集场景为例,简单介绍TimeLyre的使用流程:(1)建立链接。TimeLyre支持命令行Beeline连接和客户端 Waterdrop连接两种连接方式;(2)连接服务器并执行初始化命令。 使用SSH工具连接集群内任意节点服务器,在TDH-Client文件所在目录执行初始化命令;(3)使用Beeline连接TimeLyre;(4)输入SQL进行测试查询,完成安装校验;(5)创建记录站点信息和站点数据的OCR表及TimeLyre表;(6)向OCR事务表中批量插入数据;(7)将OCR表中的数据导入TimeLyre表;(8)进行数据查询,支持按时间段和地区关联检索、根据时间窗口进行聚合查询、时序数据统计查询。

  问题8、客户在后续部署时序数据库的过程中,贵司有哪些运行环境建议?

  安装星环TimeLyre需首先安装星环科技大数据平台产品TDH,TDH提供集群服务来保证服务的高可用性,因此集群系统必须是3台以上物理服务器组成(不建议使用虚拟机),每台服务器必须具备以下最低配置:

  2颗6核心或以上带超线程x86指令集或ARM指令集CPU的服务器

  64GB以上内存

  2个300G以上的硬盘做RAID1,作为系统盘

  4个以上的300GB容量以上的 硬盘作为数据存放硬盘

  2个千兆以上网卡

  为实现较好的性能并实现最高的性价比,TDH针对集群内不同的模块有不同的推荐配置,Namenode和Transwarp Manager推荐使用以下配置:

  2颗6核带超线程的x86指令集CPU服务器(比如Intel® Xeon® Gold-5218 Processor)

  128GB以上内存

  6个600G以上的硬盘做RAID1作为系统盘和管理数据

  2个千兆以上网口的网卡

  数据节点(Datanode)的硬件配置应该根据不同应用的特点进行选配,使用Inceptor,Discover和Slipstream配置的用户需要比较高的计算能力的服务器,其数据节点的推荐配置如下:

  2颗8核心或以上带超线程x86指令集CPU的服务器(比如Intel® Xeon® Gold-5218 Processor)

  128GB以上内存

  2个300G以上的硬盘做RAID1,作为系统盘

  10个以上的2TB容量以上的硬盘作为数据存放硬盘

  2个千兆以上网卡

  可以预见,在未来,时序数据库的发展将更加注重边缘计算服务能力、云原生和多云集成、智能时序数据库以及方便易用性。星环科技的TimeLyre时序数据库已经具备了这些功能,并能够满足物联网、能源制造、金融量化交易等多种时序数据业务场景的需求。面对未来,星环科技将继续深耕时序数据库领域,为更多行业及领域提供高效、可靠的时序数据存储和分析解决方案。让我们共同期待时序数据库未来的发展,为更多的应用场景带来更多可能性。

1
相关文章