技术开发 频道

揭秘隐藏在非结构化数据背后的真相

        【IT168 评论】随着互联网技术的发展,大量非结构化数据逐渐走入人们的视野,数据科学家也开始将研究重点转移至非结构化数据。据Gartner预计,全球信息量每年的最低增长率为59%,其中有15%是结构化数据,其余的85%则由各种非结构化数据组成。在IDC的一项调查报告中也指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。

  非结构化数据是指那些不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。当这些非结构化数据不断增加的同时,也给数据库厂商、系统架构师、数据库管理员及其他开发人员带来了前所未有的挑战。本文出自Ram Subramanyam Gopalan的博客,他是Informatica公司的一位高级产品经理,文中介绍了那些隐藏在非结构化数据背后的真相。

  如果能够将非结构化数据库像洋葱一样层层剥落,你将会了解到没有任何工具能够发现或分析出非结构化数据的结构,这就是非结构化数据谓之“非结构”的原因。

  想要深入研究非结构化数据,就要先看看下面这张图片:

揭秘隐藏在非结构化数据背后的真相

  这些所谓的非结构化数据正在飞速增长,对企业的作用也越来越重要,能够对这些数据进行收集、整理和分析等自动化管理的企业才能从根本上获得竞争优势。每个数据元都具有特定的含义,尽管这一含义通常情况下可能与企业无关。下面我将对这些“非结构化”的公用数据集一一进行介绍:

  1.文本

  ·一旦获得了元数据的结构或模板,由某些设备(如传感器等)产生的数据就可以进行破解。当然,这些数据流中的某些字段需要更强的分析或发现能力才能进行自动分析。

  ·交互数据:这是人们对他人或事物表达其观点的长期公开的文本字段,是拥有大量商业价值的社会化媒体数据。如果需要对这些数据进行自动分析,有了强大的实体识别和语义分析功能就能够更好的理解这些数据。换句话说,如果能够将文本数据转换成实体集合,即他们之间的关系以及关系属性,这样数据分析就能够比想象中的更容易。

  2.图像

  图像识别算法几乎已经成为主流(但是除了谷歌和Facebook进行规模性配置以外,图像识别算法还不是特别受到其他企业的欢迎。),这些技术会产生实体,但是这些实体源于关系和观点,所以更具有挑战性。

  3.音频

  大量研究产生的最新技术能够分析音频数据流的内容,甚至能够为说话者情绪性的内容做注释。这些技术使分析音频数据等可分析数据的过程更接近于文本。

  4.视频

  毫无疑问,视频是最具挑战性的数据类型,因为它需要处理庞大的数据量。图像识别技术可以应用于一帧或者多帧并从中提取出实体。当然,未来会更深层的分析视频内容。音频识别也可以应用于理解部分“行为”内容。

0
相关文章