技术开发 频道

Amazon发布Elastic MapReduce测试版

  
    【IT168资讯】

    根据国外媒体报道,AmazonWebServices(AWS)发布了AmazonElasticMapReduce的公共测试版,这是一项可以让商务人士、研究学者、数据分析员和开发者处理数据的网络服务。它采用了托管的Hadoop框架,运行在AmazonEC2和AmazonS3的网络架构下。通过AmazonElasticMapReduce,你可以在进行分布式程序所需的数据密集型工作时根据自己的需要实时调整所需的负荷,比如网络检索、数据挖掘、日志文件分析、机器学习、财务分析、科学仿真、以及生物信息学研究。同其它AWS的服务一样,AmazonElasticMapReduce的客户只需要为他们使用的部分付费。

    在AmazonElasticMapReduce之前,运行Hadoop或其它基于MapReduce的簇(Cluster)需要长时间的设置、管理和簇调整。Amazon表示它们的工具将会让并行计算的成本降低,并缩短执行时间。

    通过这项服务,用户可以在很短的时间里在AmazonEC2中打开或关闭一个Hadoop簇。为了让客户更好的使用这些高级分布式程序,AWS提供了许多程序范例和教程。

    一些研究人员和开发人员已经在AmazonEC2上运行Hadoop了,他们中的很多人都曾要求开发一个更简单的大规模数据处理程序,AWS的AdamSelipsky说。AmazonElasticMapReduce可以让云中的遨游变得更简单,因为它大幅缩短了时间、降低了复杂度以及执行数据密集型任务所需的成本。

    AmazonElasticMapReduce创建在AmazonEC2架构下由Hadoop软件来执行的数据处理工作流。它会自动按照客户的需求自动启动并配置一定数量的AmazonEC2实例。然后它会产生一个根据MapReduce编程模型的Hadoop实现,通过它从AmazonS3中读取大量的用户输入数据,并将他们分摊给生成的AmazonEC2实例去进行并行处理。数据处理完成后,它会将数据重新组合并简化为一个最终结果,并将该结果返回给AmazonS3。用户可以通过其API或AWS得管理控制台(ManagementConsole)来对工作流进行配置、操作和监视。

    小资料

    Hadoop和MapReduce:Hadoop是Apache开源组织的一个分布式计算开源框架,被设计用来在由通用计算设备组成的大型集群上执行分布式应用。它在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。Hadoop包含两个部分MapReduce和HDFS。MapReduce的思想是由Google提出的,它的本质就是任务的分解与结果的汇总。HDFS是Hadoop分布式文件系统的缩写,它为分布式计算存储提供了底层支持。
 

0
相关文章