技术开发 频道

盘点九款Hadoop商业发行版的创新之路

  【IT168 专稿】大数据与Hadoop正一步步给企业的数据管理架构带来变化。这是一场以专营公司、企业级软件供应商以及云服务厂商为主角的淘金热潮,每一位参与者都希望能在这片处女地上建立起属于自己的新帝国。虽然开源Apache Hadoop项目本身已经包含各类核心模块——例如Hadoop Common、Hadoop分布式文件系统(简称HDFS)、Hadoop YARN以及Hadoop MapReduce——不过由于缺少来自商业供应商的技术支持以及打包解决方案,它并不能直接在市场上作为客户的可选产品。当下各大顶尖商业发行版都与Apache Hadoop相兼容,那么它们彼此之间如何保持独立性?下面我们将跟随着Forrester的视角,一同探讨九大商业Hadoop发行版如何走出自己的独特道路。

  Amazon Web Services Elastic MapReduce夺得最大市场份额

盘点九款Hadoop商业发行版的创新之路

  在大家说起Hadoop时,Amazon也许并不是第一家出现在各位脑海中的方案供应商,不过AWS的Elastic MapReduce(简称EMR)则确实是最早投放市场的商业Hadoop产品之一、同时也在全球市场份额方面占据领先地位,Forrester首席分析师Mike Gualtieri表示。EMR是一套运作在云环境下的Hadoop,它利用Amazon EC2作为计算资源、Amazon S3作为存储资源,同时也容纳其它多项服务加以配合。

  “AWS的解决方案路线图当中包括将Amazon EMR与Amazon Kinesis相集成以实现流程处理;进一步加强其与Amazon Redshift数据仓库以及其它数据源的集成程度;以策略为指导自动调整集群规模;在Hadoop基础上支持额外的NoSQL数据库;与更多来自第三方供应商的商务智能方案相对接,”Gualtieri写道。

  Cloudera以企业客户需求为基础专注于Hadoop创新

盘点九款Hadoop商业发行版的创新之路

  AWS也许在市场份额方面遥遥领先,但专营企业Cloudera却也紧随其后;目前这家公司的客户数量已经超过200家,其中一部分的节点部署数量超过一千个、数据总量更是达到PB级别。

  “企业客户希望拥有一套Hadoop管理与监控工具,为此Cloudera创建了Cloudera Manager,”Gualtieri写道。“企业客户希望获得一套速度更快的Hadoop SQL引擎,为此Cloudera利用大规模并行处理(简称MPP)架构创建了Impala——企业级数据仓库使用的也是这套架构。Cloudera的创新思路在于一方面继续秉承Hadoop项目核心,同时又通过快速创新与积极迎合客户需求将自身方案与其它供应商区别开来。”Cloudera的盈利模式主要源自软件订购,不过他们也提供技术支持服务。

  Hortonworks推动开源Hadoop创新

盘点九款Hadoop商业发行版的创新之路

  纵观各大参与厂商,专营Hadoop业务的Hortonworks凭借自身Hortonworks数据平台(简称HDP)而与Apache Hadoop开源最为贴合,不过它同时也在积极寻求与其它工程技术合作伙伴的深入协作,其中包括微软、Teradata、SAP以及红帽等等。

  “Hortonworks的策略在于通过开源社区推动创新活动,并与合作伙伴建立生态系统以加快Hadoop在企业客户当中的普及程度,”Gualtieri写道。“如果开源社区在某些方面的发展速度不够理想,Hortonworks就会以此为基础建立新项目并利用自身资源帮助其获得强劲的前进势头。”

  在这方面,旨在提供Hadoop集群管理控制台的Apache Ambari项目就是一大典型范例。

  IBM InfoSphere BigInsights,蓝色巨人支持下的企业拓展项目

盘点九款Hadoop商业发行版的创新之路

  IBM并不像一部分竞争对手那样拥有傲人的Hadoop社区合作深度,不过他们在分布式计算与数据管理领域的卓越成就帮助其拿出了一套相当全面的Hadoop解决方案。IBM目前已经完成了一百多项Hadoop部署工作,其中一部分所打理的数据规模更是达到PB级别。

  “除此之外,IBM也拥有不少先进分析工具、全球市场份额以及服务实施方案,这使其得以通过一套完整的综合性大数据解决方案吸引众多企业客户,”Gualtieri写道。“IBM的路线图包括不断将BigInsights Hadoop解决方案与相关IBM资产相集成,例如SPSS高级分析、高性能计算工作负载管理、商务智能工具以及数据管理与建模工具等。”

0
相关文章