深入浅出Hadoop：高效处理大数据-技术开发专区

深入浅出Hadoop：高效处理大数据

作者：DoubleLife 编辑：皮丽华 2011-10-21 15:11 IT168网站原创

【IT168 专稿】Hadoop与Google一样，都是小孩命名的，是一个虚构的名字，没有特别的含义。从计算机专业的角度看，Hadoop是一个分布式系统基础架构，由Apache基金会开发。Hadoop的主要目标是对分布式环境下的“大数据”以一种可靠、高效、可伸缩的方式处理。设想一个场景，假如您需要grep一个100TB的大数据文件，按照传统的方式，会花费很长时间，而这正是Hadoop所需要考虑的效率问题。

　　关于Hadoop的结构，有各种不同的说法。我们这里简单的理解为Hadoop主要由三部分组成：HDFS(Hadoop Distributed File System)，MapReduce与Hbase。

　　1.Hadoop组件之一：HDFS分布式文件系统具有哪些优点?

　　HDFS作为一种分布式文件系统，它和现有的分布式文件系统有很多共同点。比如，Hadoop文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。对于Client端而言，HDFS就像一个传统的分级文件系统，可以创建、删除、移动或重命名文件等等。与此同时，HDFS与其他的分布式文件系统的区别也是显而易见的。

　　首先，HDFS设计目标之一是适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS假设的硬件错误不是异常，而是常态。因为HDFS面向的是成百上千的服务器集群，每台服务器上存储着文件系统的部分数据，并且这些机器的价格都很低廉。这就意味着总是有一部分硬件因各种原因而无法工作。因此，错误检测和快速、自动的恢复是HDFS最核心的架构目标。从这个角度说，HDFS具有高度的容错性。

　　第二，HDFS的另一个设计目标是支持大文件存储。与普通的应用不同，HDFS应用具有很大的数据集，一个典型HDFS文件大小一般都在G字节至T字节。这就意味着HDFS应该能提供比较高的数据传输带宽与数据访问吞吐量。相应的，HDFS开放了一些POSIX的必须接口，容许流式访问文件系统的数据。

　　第三，HDFS还要解决的一个问题是高数据吞吐量。HDFS采用的是“一次性写，多次读”这种简单的数据一致性模型。换句话说，文件一旦建立后写入，就不需要再更改了。网络爬虫程序就很适合使用这样的模型。

　　第四，移动计算环境比移动数据划算。HDFS提供了API，以便把计算环境移动到数据存储的地方，而不是把数据传输到计算环境运行的地方。这对于数据大文件尤其适用，可以有效减少网络的拥塞、提高系统的吞吐量。

　　HDFS的体系结构与工作流程

　　下面简单看一下HDFS的结构。图1所示为HDFS的体系结构图。HDFS采用的是Master/Slave架构。

　　NameNode节点作为Master服务器，有三部分功能。第一：处理来自客户端的文件访问。第二：管理文件系统的命名空间操作，如'打开'、'关闭'、'重命名'等。第三：负责数据块到数据节点之间的映射。从这个意义上说，它扮演中心服务器的角色。

　　DataNode节点作为Slave服务器，同样有三部分功能。第一：管理挂载在节点上的存储设备。第二：响应客户端的读写请求。第三：从内部看，每个文件被分成一个或多个数据块，被存放到一组DataNode，在Namenode的统一调度下进行数据块的创建、删除和复制。

IT168：深入浅出Hadoop

　　图1 HDFS体系结构图

　　HDFS采用Java语言开发，因此任何支持Java的机器都可以部署Namenode或Datanode。相应地，GNU/Linux操作系统支持Namenode与Datanode。一个典型的部署场景是，一台GNU/Linux操作系统上运行一个Namenode实例，作为Master中心服务器。而集群中的其它GNU/Linux操作系统分别运行一个Datanode实例，作为Slave服务器集群。

第1页：深入浅出Hadoop:HDFS分布式文件系统第2页：深入浅出Hadoop:MapReduce编程模型第3页：深入浅出Hadoop:开源分布式数据库Hbase 第4页：深入浅出Hadoop:为企业来带了什么

关注我们

深入浅出Hadoop： 高效处理大数据

深入浅出Hadoop：高效处理大数据