【IT168数据库大会 现场报道】2013年4月18-20日,第四届中国数据库技术大会(DTCC 2013)在北京福朋喜来登酒店拉开序幕。在为期三天的会议中,大会将围绕大数据应用、数据架构、数据管理(数据治理)、传统数据库软件等技术领域展开深入探讨,并将邀请一批国内顶尖的技术专家来进行分享。本届大会将在保留数据库软件应用实践这一传统主题的基础上,向大数据、数据结构、数据治理与分析、商业智能等领域进行拓展,以满足于广大从业人士和行业用户的迫切需要。
自2010年以来,国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix技术社区已经连续举办了三届数据库技术大会,每届大会超过千人规模,云集了国内技术水平最高的数据架构师、DBA、数据库开发工程师、研发总监、IT经理等,是目前国内最受欢迎的数据库技术盛会。
今天来到了数据库大户的第三天,在数据分析与商业智能专场,来自Inetsoft研发总监何春涛给我们分享了《大数据,商业智能的挑战》,从大数据和商业智能的发展背景进行了详细的阐述。
Inetsoft研发总监何春涛表示,提到大数据,我们很容易想到大数据的4V:1. 数据量大(Volume);2. 速度快(Velocity);3. 类型多(Variety);4. 价值密度低(Value)。后来很多人把第四个V替换成Veracity:可信度。
大数据是否意味着更多的数据?
如今在数据价值得以充分体现的时代,越来越多的人把谷歌看做是未来的统治力企业。而且对于数据,谷歌自始至终都认为数据是越多越好,用谷歌产品研发总监Peter Norvig的话就是:更多的数据胜过更好的算法。的确,我们之前就看到过谷歌通过研发一些智能化的无人驾驶系统,让我们看到了未来智能化对于我们生活带来的便利。何春涛给我们举例:语音识别的训练数据。把用户的数据都找到,效果一定错不了!
构建开源大数据生态圈
诞生:谷歌
大数据领袖谷歌,于2003年起发布一系列论文:
1. 《The Google File System 》
2. 《MapReduce: Simplified Data Processing on Large Clusters》
3. 《Bigtable: A Distributed Storage System for Structured Data》
战火被点燃,从此进入大数据时代
诞生:开源大数据生态圈
1. Hadoop HDFS、Hadoop MapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。Hive 是基于Hadoop MapReduce框架,支持SQL语句。不过,Hive不适合低延迟的应用场景,这种场景需要实时计算框架。
2. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。
何春涛谈到,中国某著名互联网企业,还写过一些关于Hypertable的文章。Hypertable成立了同名的公司来运营,在强大的Hadoop生态圈面前,前途未卜。
Hadoop MapReduce不适合实时计算?
1. 任务分配Server不会将信息Push到计算Node,而是让计算Node通过心跳去Pull任务。避免分配Server 负担过重。早期版本的缺省值是每隔三秒,后来调低了。
2. 基于框架的通用性,MapReduce代码也会在HDFS中传送,在各计算Node展开,再通过启动新JVM进程装载并运行。
3. 类似的JVM进程启停有5、6次之多。在PC机上每启动一个JVM进程大约需要一两秒。
4. Reduce Task只能在所有Map Task完成之后才能启动。有的人观察到在Map Task执行到一半的时候,Reduce Task已经开始运行了。这是因为拷贝同一Partition的Map Result这个过程可以与Map同步,但Reduce过程只能是Map Result都Available之后才开始。
中期:谷歌
为了高扩展性,我们容忍了高延迟。这时候,我们发现谷歌它居然没有为了高扩展性而牺牲实时性。
2010年,谷歌又发布了论文:《Dremel: Interactive Analysis of Web Scale Datasets》,平静再次被打破。论文撰写于2006年,可怕的是,这篇论文安安静静地躺在谷歌总部,一躺就是四年。在这段时间,有的人在优化Hadoop MapReduce,而且还拿着了投资。其他人则告诉自己:这就是NoSQL的魅力所在,等待也是一种美。
中期:开源
在Hadoop MapReduce框架之外,衍生出了一批低延迟的大数据分析项目:Cloudera Impala, MapR Drill, HBase Coprocessor
1 MapR Drill提交到了Apache社区,变成了Apache Drill。貌似还在Design Plan Language,更新比较慢。
2. HBase Coprocessor于12年初被实现,基于Google Bigtable Coprocessor思想 (2006年)。
3. 从图中可以看出,Cloudera Impala和HBase Coprocessor都采用了与Google Dremel类似的运行架构:把计算推到距离数据最近的地方。
后来:谷歌
NoSQL引领着IT界时尚圈,几乎家喻户晓;低延迟的大数据分析项目在开源界刚出现没多久,谷歌又烧了第三把火。这次它发表的两篇论文是:
1. 《F1 - The Fault-Tolerant Distributed RDBMS Supporting Google's Ad Business》
2. 《Spanner: Google's Globally-Distributed Database》
这两篇论文发表于2012年。NoSQL:没有SQL支持、一致性、多表关联等特性。支持海量数据的读或写,支持廉价PC Server集群。Spanner未来的规模将达到100万台服务器,支持上亿的客户端。
多年以来,很多人以NoSQL为时尚。到后来才发现,原来谷歌早就在用SQL语句自如地访问自己的MPP数据库:F1和Spanner了
NoSQL的定义有很多版本,最新版本是:No Time to Support SQL。
后来:开源界整体失声
到现在为止,没有发现类似的开源项目。
对于谷歌的三把火,何春涛认为:1. 谷歌点火,大家花了几年以为跟上了;2. 谷歌再放火,大家这才发现原来差距变大了;3. 大家还没来得及追,谷歌又放火,这个跑道上连人影都没见着。
商用大数据生态
1. AsterData在功能的扩展性上做得不错,用户可以写自己的MapReduce实现。
2. GreenPlum卖得最便宜,也不知道是不是因为它是唯一一家用开源数据库做计算节点的厂商?
3. 而Vertica卖了一个好价钱,不过HP买东西一向都比较贵,例如Autonomy。
4. QlikView不存在热数据概念,所以它的海量数据处理要求海量内存。QlikView认为内存可以廉价地扩展到TB级。Tableau在2010年发布的新版本包括了一个Data Engine来支持大数据。
5. 在MPP数据仓库和MPP数据集市这两个领域,我们发现了两家国内的、不错的大数据厂商,值得赞赏。