时序数据库快速发展,工业互联网、金融量化等场景应用前景广阔
随着物联网、车联网和工业互联网等的迅速发展,各类应用产生的时序数据量呈爆炸式增长,并具有海量性、关联性、时效性、实时性等特征。尤其是在工业互联网领域,工业和信息化部近2年印发了一系列发展规划,例如在《工业互联网创新发展行动计划(2021—2023年)》中提出,到2023年,我国工业互联网新型基础设施建设量质并进,新模式、新业态大范围推广,产业综合实力显著提升;新型基础设施进一步完善、融合应用成效进一步彰显、技术创新能力进一步提升、产业发展生态进一步健全、安全保障能力进一步增强。
金融行业每天同样存在大规模高频访问交易量,由此产生的时序数据量非常海量,对数据写入、分析性能以及实时性要求都很高。
根据DB-Engines官网数据库流行度曲线显示,在过去2年里,时序数据库流行度领先,可见市场对时序数据库的关注和相应需求的迫切。
InfluxDB等国外开源时序数据库无法满足国内海量数据的存储分析和安全需求
开源单机架构,存储和计算能力有限
InfluxDB是Influxdata的一款开源时序数据库,其采用单机部署,不支持分布式集群部署,因此存储和计算数据规模有限,根据实际应用情况来看,其支持的设备数量存储上限为百万级,无法满足国内大型企业的海量设备的数据存储和计算要求。
查询分析能力和性能不足
InfluxDB使用了跟SQL比较接近的InfluxQL作为查询语言,会带来较高的适配兼容门槛;不支持复杂分析,只能做简单点查或者指定设备分析。而InfluxDB采用的另外一种脚本语言Flux比较复杂,学习门槛较高。于此同时,在大规模设备情况下,进程需要使用大量内存进行计算,服务的延迟波动较大,稳定性较差。
安全能力不足,存在安全风险
InfluxDB安全管理主要依赖于命令行的方式,缺少图形化的运维管理工具,学习和使用门槛较高,并且极其依赖用户的运维管理能力,出现人为操作失误极难进行审计和安全回溯。
InfluxDB使用jwt作为鉴权方式,在1.7.6之前的版本,当用户开启了认证但未设置参数shared-secret的情况下,jwt的认证密钥为空字符串,攻击者可以伪造任意用户身份在InfluxDB中执行SQL语句,带来巨大的安全风险。
开源软件存在“被制裁”风险
Influxdata属于国外开源软件,其官网有公开说明,产品和技术受到美国内部法律管辖,因此使用国外开源软件不能规避“被制裁”风险。尽管此类软件的使用是免费的,但它的许可协议仍然存在诸多限制,包括禁止受制裁的国家使用原本对公众免费开放的代码。受美国出口管制的俄罗斯在近期俄乌事件中将这方面风险彻底暴露。
从以上可以看出,开源软件在性能方面无法满足国内企业海量数据处理需求,而安全性方面也存在不足,并且开源软件本身受出口管制法律限制,这些无疑给国内用户带来了巨大的商业和安全风险。
星环科技国产化分布式时序数据库Timelyre
Transwarp TimeLyre是星环科技的一款企业级分布式时序数据库,其支持分布式水平扩展,同时具有极高的压缩率可以支持海量时序数据的存储,提供高吞吐实时写入、时序精确查询、多维检索等功能,可以有效支撑物联网、能源制造、金融量化交易领域等多种时序数据业务场景。
Timelyre优势
Timelyre典型应用场景
时序数据存储与检索
可以满足海量时序数据的存储与检索;支持海量设备测点数据的同时入库。使用分布式架构,可
以横向扩展,数据提供一致性和多副本容灾。底层的存储模块通过块状索引、时间有序存储等方式,满足时序数据的快速检索,非常适合制造业、能源等行业设备采集数据的存储与检索。
时序数据复杂分析
TimeLyre 除了提供毫秒级的时序检索以外,还支持时序数据本身的海量数据分析,如趋势分
析、数据统计等。时序数据库提供标准的 SQL 语法,业务人员可以直接将其原先的业务语句运行在时序数据库上,同时时序数据库的计算引擎可以直接将时序数据与其它模型的数据存储进行直接的数据关联分析,进一步支撑复杂的业务场景。
量化交易行情分析与回测
TimeLyre 为金融行情数据分析与回测提供强有力的支撑,分布式架构可以支持多种类、海量高频行情数据的存储,同时随着更多因子的加入,可以更方便地扩容以满足业务需求。内部集成了多种时序分析函数、统计分析函数、技术分析函数等,用户可以直接使用库内函数进行高性能的行情分析与因子计算。
Timelyre 提供多种接入方式,包括标准SQL、C++、Python 语言等,还直接提供金融领域的多种 API 支持,可以更简便地实现量化交易策略回测等场景。
扩展性、性能、安全等方面领先国外开源时序数据库
原生分布式架构,集群灵活扩展,轻松实现海量时序数据存储分析
相比与开源时序数据库InfluxDB单机模式存储和计算能力受限,星环科技分布式时序数据库采用原生分布式架构,支持集群在线扩缩容,可满足海量时序数据存储和分析需求。Timelyre的存储组件TimeLyreStorage主要由分布式存储系统与时序存储引擎构成。分布式存储系统负责分布式元信息的一致性存储与分布式集群管理,基于RAFT协议来保证数据一致性与高可用性。时序存储引擎使用类似LSM-Tree的技术,提供高吞吐的实时插入、高性能的时序数据检索,同时会对时序数据进行多种编码和压缩,保持整体数据的高压缩率。
在计算方面,Timelyre基于用于数据仓库和交互式分析的大数据分布式计算引擎Quark,提供完整的SQL编译支持,兼容通用开发框架和工具,使得Timelyre可以轻松融入企业数据仓库或数据湖体系,为企业提供高性价比和高度可扩展的解决方案。同时,Quark支持分布式计算,同时可以在多个时序存储间平衡业务流量,能够有效地为客户端屏蔽掉集群细节,并且解决了时序存储超时或宕机后无法执行任务的问题。
更强的数据压缩能力,超高数据压缩率,大幅降低硬件成本
TimeLyre 无损数据压缩支持snapyy、gzip等常用压缩算法,同时内置多种数据类型、类型编码、场景数据编码等多种编码方式;数据压缩率可以达到 5-20 倍;同时星环科技也可以提供有损数据压缩的解决方案,数据将在一定精度内存储,进一步提升了压缩率,为企业有效的节约硬件成本。
更强的性能,提供时序数据存储分析极速体验
单节点情况下,数据导入速度、导出速度、支持的设备数量都是InfluxDB的10倍,并且借助于分布式特性,理论上性能可以随着集群数据的扩展而线性提升。同时,Timelyre支持InfluxDB不支持的关联等复杂分析,性能接近分布式分析型数据库。
标准SQL支持,丰富的API支持,大幅降低学习和对接成本
InfluxDB支持类SQL查询语言InfluxQL,仅支持简单查询。通过自身连续查询(CQ SQL)实现入库数据分析,不支持Python API,使用场景比较受限,尤其是在金融量化领域,无法支持一维或多维数据结构,无法灵活的对各类交易数据进行运算操作,不符合金融数据从业人员的数据处理习惯。
TimeLyre支持完备的SQL语法,支持C++与Java语言开发接口,同时支持RESTful API。 用户可以使用标准 SQL 进行数据分析,支持关联查询、聚合查询、嵌套查询等多种复杂 SQL 分析功能。在工业物联网领域,TimeLyre支持包括OPC-UA/DA,MQTT等多种标准化通信协议,可以支持多样化端传感器的数据采集工作,提供了从采集端到分布式时序数据库的一整套数据流转解决方案;在金融量化领域,TimeLyre支持Python API,并提供了对分布式文件系统格式数据的读取与入库支持,极大降低了从数据层到应用层的数据流转技术门槛,使更多的金融领域数据工作者可以快速上手TimeLyre。
更全面的安全和运维保障,充分保障数据和系统安全
Transwarp TimeLyre内置配套的安全授权、用户权限控制等相关安全功能,可以有效保障系统数据和访问上的安全。
在用户权限认证上,基于SASL提供plain与gssapi两种认证方式,对应传统的用户名密码认证方式和基于Kerberos的登录验证方式,同时提供用户组概念,便于通过平台实现统一管理与操作。
在数据权限上,基于角色的访问控制(RBAC) 机制,使用户能够通过将权限分配给角色并将角色分配给用户或组来授权用户,支持库级/表级以及列级/行级访问权限控制,同时支持20多种脱敏算法,具备优秀的数据隐私保护能力。
在数据加密上,TimeLyre支持基于SSL/TLS两类协议进行数据加密,确保数据传输过程的安全。
Timelyre支持可视化监控,通过丰富的仪表盘、告警与通知、实时和历史查询语句运行分析、计算和存储的统一监控,完整的日志收集和过滤与检索等功能,保障系统稳定高效运作。此外,Timelyre支持不停服全量数据备份,充分保障数据安全。当系统系统出现故障时,可以通过统一编排调度管理,实现当pod故障时自动重启,实现高效智能运维的,大幅降低运维成本。
InfluxDB在运维监控方面需要配合Grafana、tasseo等开源监控工具,一方面同样存在海外开源软件的安全问题,2021年美国商务部和安全局发布了最新控制措施,禁止美国公司向中国和俄罗斯等“有问题”的国家出口和转售网络安全产品,后续可能会受到一定的影响,另外在这些开源监控工具在SQL执行、用户管理、资源调度等方面都存在一定的不足,无法满足企业便捷、高效、智能运维需求。
并且是通过命令行的方式进行运维监控,增加运维难度。同时,InfluxDB全量数据备份需要停服后手动触发,并且当系统出现故障时,需要手动重启,大大增强了运维难度,难以保障服务的连续性。
更丰富的应用场景
在覆盖InfluxDB应用场景基础上,星环科技分布式时序数据库可以支持更多的应用场景,帮忙客户充分利用和挖掘时序数据价值。
IoT方案云边一体
l 结合工业制造行业应用特点,兼顾低成本、灵活扩展性和独享性、安全性。
l 边缘端采集处理好的时序数据文件块直接上传到云端使用,无需二次加工,云边同步延迟低。
l 重算力、重隐私,且轻存储、轻资产,满足企业生产核心业务需求并最大程度降低IT设施建设成本和运维成本。
量化投研一体化平台
l 分布式架构可以支持多种类、海量高频行情数据的存储,灵活扩缩容,为金融行情数据分析与回测提供强有力的支撑
l 内部集成了多种时序分析函数、统计分析函数、技术分析函数等,用户可以直接使用库内函数进行高性能的行情分析与因子计算
l 提供多种接入方式,包括标准SQL、C++、Python 语言等,还直接提供金融领域的多种 API 支持,可以更简便地实现量化交易策略回测等场景
一站式国产化替代解决方案,助力企业打造自主可控数据平台
为符合国家信创战略要求,真正实现软件自主可控的战略,星环科技提供了一整套国产化分布式时序数据库产品TimeLyre替换InfluxDB的解决方案。
InfluxDB替换方案涉及接口兼容度、高可用性、中间件与应用层软件兼容性等多个问题,TimeLyre采用两段式的替代方案,保障原系统和服务的低成本、安全、平滑迁移。
第一阶段:替换InfluxDB的数据库服务,完成InfluxQL到TimeLyre标准SQL的改造工作,实现原有业务逻辑脚本的平滑替换;
第二阶段:替换InfluxDB配套的 grafana等运维监控组件,借助星环科技多模数据平台监控软件Aquila Insight、大数据安全管理软件Guardian等大数据平台组件,完成对既有业务系统的完全国产化替换。
总结
相比于国外开源时序数据库,星环科技分布式时序数据库TimeLyre可以满足企业系统自主可控的需求,在极大降低数据库技术人员和运维人员的学习和使用门槛的同时,具有高扩展性、高投资回报比、高性能、高安全性等特性,可以满足企业IoT云边一体、量化投研一体化平台等更多场景。