DTCC2013谷歌三把火业界进入大数据时代-技术开发专区

DTCC2013谷歌三把火业界进入大数据时代

作者：景保玉编辑：景保玉 2013-04-20 15:13 IT168网站原创

　　【IT168数据库大会现场报道】2013年4月18-20日，第四届中国数据库技术大会(DTCC 2013)在北京福朋喜来登酒店拉开序幕。在为期三天的会议中，大会将围绕大数据应用、数据架构、数据管理(数据治理)、传统数据库软件等技术领域展开深入探讨，并将邀请一批国内顶尖的技术专家来进行分享。本届大会将在保留数据库软件应用实践这一传统主题的基础上，向大数据、数据结构、数据治理与分析、商业智能等领域进行拓展，以满足于广大从业人士和行业用户的迫切需要。

▲2013中国数据库大会报道专题

　　自2010年以来，国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix技术社区已经连续举办了三届数据库技术大会，每届大会超过千人规模，云集了国内技术水平最高的数据架构师、DBA、数据库开发工程师、研发总监、IT经理等，是目前国内最受欢迎的数据库技术盛会。

　　今天来到了数据库大户的第三天，在数据分析与商业智能专场，来自Inetsoft研发总监何春涛给我们分享了《大数据，商业智能的挑战》，从大数据和商业智能的发展背景进行了详细的阐述。

▲Inetsoft研发总监何春涛

　　Inetsoft研发总监何春涛表示，提到大数据，我们很容易想到大数据的4V：1. 数据量大(Volume);2. 速度快(Velocity);3. 类型多(Variety);4. 价值密度低(Value)。后来很多人把第四个V替换成Veracity：可信度。

▲大数据的4V

　　大数据是否意味着更多的数据?

　　如今在数据价值得以充分体现的时代，越来越多的人把谷歌看做是未来的统治力企业。而且对于数据，谷歌自始至终都认为数据是越多越好，用谷歌产品研发总监Peter Norvig的话就是：更多的数据胜过更好的算法。的确，我们之前就看到过谷歌通过研发一些智能化的无人驾驶系统，让我们看到了未来智能化对于我们生活带来的便利。何春涛给我们举例：语音识别的训练数据。把用户的数据都找到，效果一定错不了!

　　构建开源大数据生态圈

　　诞生：谷歌

　　大数据领袖谷歌，于2003年起发布一系列论文:

　　1. 《The Google File System 》

　　2. 《MapReduce: Simplified Data Processing on Large Clusters》

　　3. 《Bigtable: A Distributed Storage System for Structured Data》

　　战火被点燃，从此进入大数据时代

　　诞生：开源大数据生态圈

　　1. Hadoop HDFS、Hadoop MapReduce, HBase、Hive 渐次诞生，早期Hadoop生态圈逐步形成。Hive 是基于Hadoop MapReduce框架，支持SQL语句。不过，Hive不适合低延迟的应用场景，这种场景需要实时计算框架。

　　2. Hypertable是另类。它存在于Hadoop生态圈之外，但也曾经有一些用户。

　　何春涛谈到，中国某著名互联网企业，还写过一些关于Hypertable的文章。Hypertable成立了同名的公司来运营，在强大的Hadoop生态圈面前，前途未卜。

　　Hadoop MapReduce不适合实时计算?

　　1. 任务分配Server不会将信息Push到计算Node，而是让计算Node通过心跳去Pull任务。避免分配Server 负担过重。早期版本的缺省值是每隔三秒，后来调低了。

　　2. 基于框架的通用性，MapReduce代码也会在HDFS中传送，在各计算Node展开，再通过启动新JVM进程装载并运行。

　　3. 类似的JVM进程启停有5、6次之多。在PC机上每启动一个JVM进程大约需要一两秒。

　　4. Reduce Task只能在所有Map Task完成之后才能启动。有的人观察到在Map Task执行到一半的时候，Reduce Task已经开始运行了。这是因为拷贝同一Partition的Map Result这个过程可以与Map同步，但Reduce过程只能是Map Result都Available之后才开始。

　　中期：谷歌

　　为了高扩展性，我们容忍了高延迟。这时候，我们发现谷歌它居然没有为了高扩展性而牺牲实时性。

　　2010年，谷歌又发布了论文:《Dremel: Interactive Analysis of Web Scale Datasets》，平静再次被打破。论文撰写于2006年，可怕的是，这篇论文安安静静地躺在谷歌总部，一躺就是四年。在这段时间，有的人在优化Hadoop MapReduce，而且还拿着了投资。其他人则告诉自己：这就是NoSQL的魅力所在，等待也是一种美。

　　中期：开源

　　在Hadoop MapReduce框架之外，衍生出了一批低延迟的大数据分析项目：Cloudera Impala, MapR Drill, HBase Coprocessor

　　1 MapR Drill提交到了Apache社区，变成了Apache Drill。貌似还在Design Plan Language，更新比较慢。

　　2. HBase Coprocessor于12年初被实现，基于Google Bigtable Coprocessor思想 (2006年)。

　　3. 从图中可以看出，Cloudera Impala和HBase Coprocessor都采用了与Google Dremel类似的运行架构：把计算推到距离数据最近的地方。

　　后来：谷歌

　　NoSQL引领着IT界时尚圈，几乎家喻户晓;低延迟的大数据分析项目在开源界刚出现没多久，谷歌又烧了第三把火。这次它发表的两篇论文是：

　　1. 《F1 - The Fault-Tolerant Distributed RDBMS Supporting Google's Ad Business》

　　2. 《Spanner: Google's Globally-Distributed Database》

　　这两篇论文发表于2012年。NoSQL：没有SQL支持、一致性、多表关联等特性。支持海量数据的读或写，支持廉价PC Server集群。Spanner未来的规模将达到100万台服务器，支持上亿的客户端。

　　多年以来，很多人以NoSQL为时尚。到后来才发现，原来谷歌早就在用SQL语句自如地访问自己的MPP数据库：F1和Spanner了

　　NoSQL的定义有很多版本，最新版本是：No Time to Support SQL。

　　后来：开源界整体失声

　　到现在为止，没有发现类似的开源项目。

▲开源大数据生态圈

　　对于谷歌的三把火，何春涛认为：1. 谷歌点火，大家花了几年以为跟上了;2. 谷歌再放火，大家这才发现原来差距变大了;3. 大家还没来得及追，谷歌又放火，这个跑道上连人影都没见着。

　　商用大数据生态

　　1. AsterData在功能的扩展性上做得不错，用户可以写自己的MapReduce实现。

　　2. GreenPlum卖得最便宜，也不知道是不是因为它是唯一一家用开源数据库做计算节点的厂商?

　　3. 而Vertica卖了一个好价钱，不过HP买东西一向都比较贵，例如Autonomy。

　　4. QlikView不存在热数据概念，所以它的海量数据处理要求海量内存。QlikView认为内存可以廉价地扩展到TB级。Tableau在2010年发布的新版本包括了一个Data Engine来支持大数据。

　　5. 在MPP数据仓库和MPP数据集市这两个领域，我们发现了两家国内的、不错的大数据厂商，值得赞赏。

关注我们