技术开发 频道

深入浅出Hadoop: 高效处理大数据

      Hadoop为企业来带了什么?

  如今,“大数据”这一术语在IT经理人中变得越来越流行。美国国家海洋与大气管理局NOAA利用“大数据”进行气象、生态系统、天气和商务研究。《纽约时报》使用“大数据”工具进行文本分析和Web信息挖掘。迪斯尼则利用它们关联和了解跨不同商店、主题公园和Web资产的客户行为。

  “大数据”不仅适用于大型企业,而是适用于各种不同规模的企业。例如,通过评估某位客户在网站上的行为,来更好地了解他们需要什么支持或寻找什么产品,或者弄清当前天气和其他条件对于送货路线和时间安排的影响。

  面对“大数据”,Hadoop为揭示深奥的企业与外部数据的关键内幕提供了基础。从技术上看,Hadoop分布式文件系统(HDFS)保证了大数据的可靠存储,而另一Hadoop核心组件MapReduce则提供高性能并行数据处理服务。这两项服务提供了一个使对结构化和复杂“大数据”的快速、可靠分析变为现实的基础。

  Hadoop已经迅速成长为首选的、适用于非结构化数据的大数据分析解决方案。基于Hadoop、利用商品化硬件对海量的结构化和非结构化数据进行批处理,给数据分析领域带来了深刻的变化。通过挖掘机器产生的非结构化数据中蕴藏的知识,企业可以做出更好的决策,促进收入增长,改善服务,降低成本。

  Google与Hadoop有着千丝万缕的联系。如前所述,Hadoop主要是由HDFS、MapReduce和Hbase组成。而HDFS是Google File System(GFS)的开源实现,MapReduce是Google MapReduce的开源实现,HBase是Google BigTable的开源实现。Hadoop分布式框架很有创造性,而且有极大的扩展性,使得Google在系统吞吐量上有很大的竞争力。因此Apache基金会用Java实现了一个开源版本,支持Fedora、Ubuntu等Linux平台。

  考虑到Hadoop在应对大规模非结构型数据中所起到的重要作用,微软也不得不放下架子,近日宣布开发一个兼容Windows Server与Windows Azure平台的Hadoop开源版本。

  IBM宣布在Hadoop上建立新的存储架构,作为群集运行DB2或Oracle数据库,目的是让应用程序,支持高性能分析,数据仓库应用程序和云计算的目的。

  EMC也推出了世界上第一个定制的、高性能的Hadoop专用数据协同处理设备——Greenplum HD数据计算设备,为客户提供了最强大、最高效率的方法,充分挖掘大数据的价值。

  互联网搜索巨头百度也在考虑使用Hadoop。不过,出于性能与安全的考虑,百度在采用Hadoop架构的时候,将Hadoop计算层进行了重新编写。

  总结:

  Hadoop作为一种分布式基础架构,可以使用户在不了解分布式底层细节的情况下,开发分布式程序。

  关于Hadoop的价值,思科的James Urquhart指出:“Hadoop可以说是不涉及任何现有专利的开源项目在企业软件方面所取得的首个里程碑式成功。”在业界,Hadoop也赢得“庞大数据问题的通用解决方案”的头衔。我们不得不说,Hadoop前途不可估量。

  参考资料:

  http://baike.baidu.com/view/908354.htm

  http://subject.csdn.net/hadoop/

  http://hadoop.apache.org/common/docs/r0.19.2/cn/quickstart.html

0
相关文章