技术开发 频道

富士通开发新技术,加速物联网数据分析

  【IT168 资讯】富士通实验室今日宣布开发技术、集成和快速分析用于积累大量非结构化IoT数据的NoSQL数据库,以及用于关键任务企业系统的数据分析的关系数据库。

  NoSQL数据库用于存储大量数据,例如从各种IoT设备以各种结构输出的IoT数据。由于大量非结构化IoT数据的结构转换需要时间,所以就会涉及到跨NoSQL和关系数据库数据分析处理时间的问题。

  如今,富士通实验室开发了通过分析SQL查询以无缝访问关系数据库和NoSQL数据库来优化数据转换并减少数据传输量的技术,以及一种自动分区数据并有效分布Apache Spark上执行的技术,实现将NoSQL数据库集成到关系数据库的快速分析。

  当这项技术应用于PostgreSQL和MongoDB中进行性能评估时,由于数据转换的优化,其查询处理的速度提升了4.5倍。此外,使用Apache Spark上的高效分布式执行技术实现了与节点数成比例的加速。

  利用这种技术可以解决很多现实问题,如零售商店可以连续地推出各种IoT设备,以便采集诸如客户的店内移动和动作之类的信息,并将这些数据应用于关键任务系统,实施一对一营销策略,个性化地向每个客户推荐产品和服务。

  发展背景

  近年来,物联网和传感器技术日益提高,使得以前难以收集到的数据也可以轻而易举的获得,相信这些新数据与现有关键任务和信息系统中的数据相连接并将迸发出更多的可能性,实现诸多不可能的分析。

  例如,在零售商店中,现在可以获得各种各样的IoT数据,如通过分析客户的移动设备上的Wi-Fi的信号强度来了解客户在商店中何处停留,或者通过分析监控摄像机的图像数据,了解详细的客户行为(客户查看和拾取了哪些产品)以及个人特征(年龄,性别等)。 通过将这些数据与现有业务数据的适当组合,可以帮助企业实施一对一的营销策略,提供适合于每个客户的产品和服务。

  存在问题

  当跨越关系数据库和NoSQL数据库进行查询分析时,需要具有用于将存储在NoSQL数据库中的非结构化数据转换成可由关系数据库处理的结构化数据的预定义数据格式,以便快速执行数据转换和分析处理 。 然而,随着IoT数据的增长,已经难以预先定义格式。因为用于分析的数据总是在变化,如增加了新的传感器,现有传感器或相机等设备进行了软件更新。所以数据分析人员也在一直寻找一种不需要预定义数据格式的方法,但如果不能预先定义格式,在查询数据库时,转换处理开销就非常重要,也会出现进行分析时产生较长处理时间的问题。

  关于技术

  现在,富士通实验室开发了可以快速运行跨越关系和NoSQL数据库的无缝分析的技术,而无需预先定义的数据格式,以及加速使用Apache Spark集群作为分布式并行平台的分析技术。 此外,富士通实验室在PostgreSQL中实现了其新开发的技术,并使用存储JSON格式的非结构化数据的MongoDB数据库作为NoSQL数据库来评估其性能。


▲新开发技术的结构概念

  技术细节如下:

  1.数据转换优化技术

  该技术分析包括访问NoSQL数据库中的数据查询(SQL查询),以提取指定必要字段及其数据类型的部分,并识别转换数据所需的数据格式。 然后基于这些结果优化查询,并且通过NoSQL数据的批量转换来降低开销,提供等同于具有预定义数据格式的现有处理的性能。


▲优化JSON格式的数据转换

  2.减少从NoSQL数据库传输的数据量的技术

  富士通实验室开发了通过分析数据库查询将一些处理(如过滤)从PostgreSQL迁移到NoSQL的技术。 使用这种技术,可以使NoSQL数据源传输的数据量最小化,加快进程。


▲减少从NoSQL(MongoDB)传输的数据量

  3.用于分布式处理的自动分区数据的技术

  富士通实验室开发了用于跨多个关系数据库和Apache Spark上的NoSQL数据库的查询的高效分布式执行的技术。它根据每个数据库存储中的数据位置等信息自动确定非常好的数据分区,以避免跨Apache Spark节点的不平衡负载。


▲自动化Apache Spark集群的分布式执行

  效果

  富士通实验室在PostgreSQL中实现了这一新开发的技术,并使用MongoDB作为NoSQL数据库来评估性能。当使用评估决策支持系统性能的TPC-H基准查询进行评估时,前两种技术的应用将总体处理时间加快了现有技术的4.5倍。此外,使用第三种技术在具有四个节点的Apache Spark集群上执行此评估,实现了一个节点3.6倍性能的提高。

  现在使用这种新开发的技术可以通过整个企业领域的公共SQL接口高效地访问IoT数据,例如传感器数据;可以灵活地支持IoT数据中频繁的格式更改,从而实现包括IoT数据在内的快速分析处理 。

  未来计划

  富士通实验室会在大规模Apache Spark集群的应用中继续尝试新开发的技术,并计划于2017财年在富士通实现商业实施。

0
相关文章