“数据仓库之父”谈如何处理非结构化数据-技术开发专区

“数据仓库之父”谈如何处理非结构化数据

作者：IT168 胡磊编译编辑：晓熊 2008-03-28 00:00 来源：IT168�

【IT168技术评论】
毫无疑问，这是一个信息爆炸的时代。你的服务器上充满了各种各样的数据。问题就提出来了，你如何处理那些非结构化数据？在本文中，让“数据仓库之父” W.H. Inmon谈谈他自己的独到见解。

    虽说非结构化数据很难处理，但是它已经存在很久了，肯定比计算机的历史还要久远。不信的话，想想圣经，埃及象形文字，和卡马河佛经这些骨灰级的东西，它们都是非结构化数据，它们的历史可想而知了。这些非结构化数据绝对比那些硅片的出现的要早。搜索引擎虽然出现了一段时间，但也绝没有印刷时代历史悠久。即便现在的搜索引擎已经很完善了，但想随心所欲的处理包含非结构化数据信息的时代还没有到来，至少目前是这样的。这是什么原因造成的呢？

无用输入，无用输出

    只有实现非结构化数据到数据仓库的抽取，搜索引擎才会释放出非结构化数据的真正价值。实现非结构化数据的整合存在着困难，想想那些很早就提出来的信息技术难题：无用信息输入，无用信息输出（GIGO），就会知道即使功能再强大的搜索引擎，用来处理那些实质上未经提炼和整和的数据会得到什么结果？搜索引擎的结果会告诉我们答案，返回给用户的也将会是一些没有提炼，无用的信息。

   因此，在搜索之前，那些非结构化的文本数据需要被提炼整合。如果这个工作完成的话，就不会有无用信息的输入，那么将不会产生无用的输出信息。

Internet数据和公司数据的差异
    通过搜索Internet来提炼数据收效甚微。通过Internet提炼和整合数据是白费力气。试图在Internet整合数据好比愚公移山，大海捞针。

    但是公司数据就是另外一回事了，有以下两个原因。第一，当提到公司数据，它的总量和类型是有限的，而Internet上的数据正好相反，无穷无尽。第二，不像Internet数据，公司数据几乎和公司的事务相关。我可以很肯定的说，Internet上的数据上只有小部分的数据和公司的事务相关。

    因此，整合公司文本数据，或者为了研究或者分析的目的而去整合，是非常可行的。

第1页：非结构化数据充斥世界第2页：什么样的公司数据需要整合

关注我们