技术开发 频道

揭秘隐藏在非结构化数据背后的真相

  基于以上内容,想要从这些新的数据类型中提取更多有价值的内容,就需要更多新的数据处理和数据分析的功能。

  动态元数据发现:这一功能主要针对文本数据,具体如下:

  ·动态样品结果集派生元数据,例如新的REST端点。

  ·不间断的维持或控制元数据。

  ·在运行时,从几个可能的备选方案中选择适当的或者最匹配的元数据集。

  分类设置:为了使其他分析层能够引用或注释这些输入数据,需要获取业务及其实体。随着业务的发展,这种分类将变得更加丰富。

  实体提取和语义分析:提供了对任意文本数据流和派生实体进行分类,以及对数据流进行关系表达的能力。这种分析可以存储在关系型数据库中,也可以存储为图表。

  多媒体识别技术:正如之前描述的那样,需要破解图像、音频和视频内容的多种技术来分析这些数据类型。

  分层遵循以下原则,如图所示:

  很多功能仍然在上层,但是它最终也将包含音频和视频。图像和音频,甚至视频其实都能转换为文本数据,而文本数据则可转换为实体集合,即包含属性与关系的结构化数据。

  通过本文的介绍,你仍然认为这些数据的“非结构化”难以理解吗?经过一些过程就能将这些数据的结构找回来,这就是所谓“非结构化”数据背后的真相。

0
相关文章