“数据仓库之父”谈如何处理非结构化数据
【IT168技术评论】
毫无疑问,这是一个信息爆炸的时代。你的服务器上充满了各种各样的数据。问题就提出来了,你如何处理那些非结构化数据?在本文中,让“数据仓库之父” W.H. Inmon谈谈他自己的独到见解。
虽说非结构化数据很难处理,但是它已经存在很久了,肯定比计算机的历史还要久远。不信的话,想想圣经,埃及象形文字,和卡马河佛经这些骨灰级的东西,它们都是非结构化数据,它们的历史可想而知了。这些非结构化数据绝对比那些硅片的出现的要早。搜索引擎虽然出现了一段时间,但也绝没有印刷时代历史悠久。即便现在的搜索引擎已经很完善了,但想随心所欲的处理包含非结构化数据信息的时代还没有到来,至少目前是这样的。这是什么原因造成的呢?
无用输入,无用输出
只有实现非结构化数据到数据仓库的抽取,搜索引擎才会释放出非结构化数据的真正价值。实现非结构化数据的整合存在着困难,想想那些很早就提出来的信息技术难题:无用信息输入,无用信息输出(GIGO),就会知道即使功能再强大的搜索引擎,用来处理那些实质上未经提炼和整和的数据会得到什么结果?搜索引擎的结果会告诉我们答案,返回给用户的也将会是一些没有提炼,无用的信息。
因此,在搜索之前,那些非结构化的文本数据需要被提炼整合。如果这个工作完成的话,就不会有无用信息的输入,那么将不会产生无用的输出信息。
Internet数据和公司数据的差异
通过搜索Internet来提炼数据收效甚微。通过Internet提炼和整合数据是白费力气。试图在Internet整合数据好比愚公移山,大海捞针。
但是公司数据就是另外一回事了,有以下两个原因。第一,当提到公司数据,它的总量和类型是有限的,而Internet上的数据正好相反,无穷无尽。第二,不像Internet数据,公司数据几乎和公司的事务相关。我可以很肯定的说,Internet上的数据上只有小部分的数据和公司的事务相关。
因此,整合公司文本数据,或者为了研究或者分析的目的而去整合,是非常可行的。
0
相关文章