技术开发 频道

Hadoop"发烧期"已过,该回归理性思考了

  【IT168 评论】大数据就是Hadoop吗?当然不是,但是很多人一提到大数据就会立刻想到Hadoop。现在数据科学家利用海量数据创建数据模型为企业带来的利益是以前所不可想象的,但是数据的潜力已经被完全挖掘出来了吗,它满足了人们的期待了吗?今天我就从Hadoop的历史开始剥丝抽茧看看它的今天。

  Gartner 2015新兴技术成熟度曲线报告

Hadoop

  Gartner 2015新兴技术成熟度曲线报告的关键点:

  1.Big Data 在2014年还处于泡沫化的底谷期,但是在2015年的成熟度曲线报告中已经不见它的身影。

  2.物联网连续两年处于过高期望的峰值。

  除了Gartner 新兴技术成熟度曲线报告,我们再来看看Big Data和Hadoop的谷歌趋势,如下图:

Hadoop

  从图中我们看到,2014-2015年是一个转折点,这之后Big Data和Hadoop的谷歌趋势开始下降了。

  Hadoop的历史简介

  以下内容摘自Alexey Grishchenko发布的文章:

  Hadoop是在谷歌的理念和雅虎的技术下诞生的,主要用来满足互联网公司的分布式计算和存储架构的需求。2003-2008年是Hadoop的萌芽发展期,几乎没有人知道它是什么,也不知道应该怎么去使用它。

  1.2008年, Google工程师Christophe Bisciglia和一群志同道合的朋友一起成立了一个专门商业化Hadoop的公司——Cloudera,利用Hadoop开源产品抢先占领云和数据市场。后来,他们放弃了云,专注于数据,2009年,Cloudera发布了Cloudera Hadoop Distribution。他们为Hadoop生态的发展做出了很多贡献,连接了开源与业界之间的鸿沟,从Hadoop的谷歌趋势中我们也可以看出Hadoop是从2009年开始进入高速发展期,这也是Hadoop第一次商业尝试。

  2.2009年到2011年,Cloudera试图炒热Hadoop市场,无奈它的技术受众太少暂时还难成气候。但是,第一个吃螃蟹的人已经证明了Hadoop平台的价值,越来越多的玩家开始加入其中,如MapR和Hortonworks,一些初创公司和互联网公司也开始使用这一技术。

  3.2012年到2014年,大规模的营销和企业支持让大数据突然爆红,一跃成为IT圈的流行词。2012年,主流的技术公司花费了150多亿美元收购做数据处理和分析的公司。大数据解决方案大幅增长,但分析市场很难升温。早期的Hadoop使用企业已经开始玩当时很有前途的新技术。

  4.2014–2015年,大数据已经进入到了Gartner的过高期望峰值。Intel 投资7.6亿美元的Cloudera估值已达41亿美元,Hortonworks的估值也高达10亿美元。大数据领域也出现了很多新技术,如 Apache Spark、Apache Flink、Apache Kafka 等等。IBM投资3亿美元的Apache Spark也进入到了Gartner的过高期望的峰值。企业开始大量涌入大数据领域,数据湖、数据中心以及λ架构等简化传统企业基础设施的解决方案开始大热。

Hadoop

  5.2016年对大数据来说,是一个很有趣的时间点,Cloudera的估值已经下降了38%,Hortonwork的估值已经下降了近40%,这些迫使它们不得不削减专业服务部。Pivotal放弃了自己开拓Hadoop市场,选择和Hortonworks合作,共同开拓市场。这到底是为什么呢?我认为导致这种现象的主要驱动力是企业客户对Hadoop看法的转变,刚开始大家对Hadoop认识还不够,跟风的嫌疑很重,但是随着对Hadoop的了解不断深入,大家开始明白Hadoop只是解决具体问题的一个工具,它并不是一个神器,可以帮助你一举击溃竞争对手,如果你的企业数据量没有达到一定的量级,那么你根本没有使用Hadoop的必要。所有的这些使企业开始对Hadoop进行重新评估,很多企业将他们的投资范围缩小为“大数据”,专注于解决具体的业务问题。

  Hadoop发展现状令人担忧

  Gartner对284家企业进行了调查,只有125家企业表示他们已经投资了Hadoop或在未来2年内会投资Hadoop:

Hadoop

  54%的受访者表示没有投资计划。

  26%的受访者表示只部署了Hadoop

  11%受访者表示在12个月内计划投资

  7%受访者表示在24个月内计划投资

  造成这种情况可能的原因

  Skills Gap

  57%的受访者表示Skills Gap是他们不采用Hadoop的主要原因,49%的受访者表示他们还在寻找其价值。据Gartner估计,专业人才要想满足市场需求至少需要两年的时间,Hadoop供应商也正在积极努力为用户创建更加友好的集成模块和接口,但是很遗憾目前还不能满足普通用户的需求。

Hadoop

  投资回报率

  在探索新的业务流程的时候,大多数的企业都会选择专业的个人或大数据团队来经营。很多传统数据库供应商也在不断的完善他们的产品,在内存和大规模的并行处理方面有了很大的提高,很多性能PK要胜Hadoop,这给Hadoop的发展带来了很大的挑战。

  创建数据集市时,和Hadoop的合并也有很多有争议的地方。大多数的企业都有团队对企业社交数据和其他非结构化的数据进行处理,大部分的解决方案在做数据跟踪和品牌监测时是不需要实时处理的,这时Hadoop就处于劣势了。

  整合

  另一个很重要问题的就是Hadoop如何与现有的数据仓库和平共处呢?

  现在大部分的做法不是在云上建立系统,而是托管集群。Cloudera的客户大多数是有自己的集群,少数是放在云上。现在的选择主要有以下几种:

A.建立或租赁数据中心

B.使用 IaaS服务,如AWS、谷歌云平台等,

C.选择现下新兴的Hadoop as a Service。

  这三种方式都各有自己的局限性,企业在选择时可以根据自己的实际情况,首先,建立数据中心的价格不菲,选择类似Amazon EMR这样的云供应商不仅要求企业要对Hadoop有足够的了解,也要对Amazon生态系统有一定的了解,而Hadoop as a Service 供应商目前还没有好的成熟的产品面世,要想成为成熟企业还需一点时间。

  云计算的出现

  Skills Gap和投资回报率是相互关联的,随着时间的推移,企业的技术越来越纯熟,这些因素对Hadoop价值的影响会越来越少。最近,出现了很多整合了云和Hadoop的解决方案。

  SAP收购报告显示SAP收购了初创企业Altiscale,Altiscale是一家 Hadoop 云服务模式(HaaS)供应商。

  还有一个有趣的事件就是Cloudera要求英特尔提供10亿美元建立一个云服务。Hadoop的市场领导者Cloudera一直在推动着云的发展,其在云端Hadoop市场也占领着一定的市场份额,但是Cloudera并不是一家独大,很多企业也都在发力这一领域,如Amazon AWS、IBM BigInsights、Google Cloud Platform,以及Microsoft Azure HDInsight等等。

0
相关文章