技术开发 频道

直击Hadoop中国云计算大会:EMC数据掘宝

        【IT168 现场报道】一年一度的Hadoop中国2011云计算大会(Hadoop in China 2011,HiC2011)于12月2日至3日在北京成功举行。作为Hadoop in China社区的一次年度技术盛会,大会特别邀请了Lucene、Nutch、Hadoop等开源软件创始人,Apache软件基金会主席兼Apache Hadoop项目负责人Doug Cutting先生,Condor创始人University of Wisconsin–Madison的Miron Livny教授, Ohio State University计算机系主任,Robert M. Chritchfield讲席教授张晓东,以及来自Google、Facebook、Yahoo!、eBay、中移动、华为、百度、腾讯、EMC等国内外著名互联网公司和IT企业的学者和资深开发人员到场演讲并进行技术交流,部分专家是首次来中国访问。

  Hadoop中国2011云计算大会设有主题演讲与分会场报告两大环节。大会的第二天,记者参加了“Hadoop生态系统”分会场报告环节。来自EMC中国开发集团的三位专家们分别从不同的角度作了一场题为“基于Hadoop的统一数据存储和分析平台”的精彩主题报告。

  作为基于Hadoop的统一数据存储和分析平台,EMC大数据分析平台功能非常丰富,其体系结构图如下:

  从这张结构图中,我们可以清楚地看出,EMC提供底层的存储与虚拟化技术等基础设施。存储由EMC的产品 Atmos及 Islon提供支持,而虚拟化技术则由第三方VMware提供支撑。而Hadoop的统一数据存储和分析平台的核心部分则由Greenplum独挑大梁。而实际上,作为存储老大的EMC,不甘心“只硬不软”,收购了BI公司Greenplum,对于发展EMC的Hadoop战略,可谓是如虎添翼。在整个体系结构的最上方是定制的一些BI分析工具。

  从内容上,演讲“基于Hadoop的统一数据存储和分析平台”可划分为三块,分别为:自我服务的分析架构——Chorus:在云中管理大数据——EMC Atmos:大数据管理与分析研究概览。下面,我们一一为您解析。

  自我服务的分析架构——Chorus

  首先,EMC的第一位专家关注的焦点是Chorus。Chorus是Greenplum于2010年4月13日宣布推出业内首个商用企业数据云端运算平台。Greenplum Chorus的创新自助服务供应、数据协作和数据服务特性,为国际机构提供可完善其传统企业数据仓库的全新软件,让企业人员更容易从公司数据中进行协作和进行深入的分析。Chorus的分析架构如下:

  Chorus通过三项核心功能应对数据分析人员、IT人员和业务行政人员的需求。

  1、数据市场的自助服务供应,加上安全、受控的沙盒(Sandboxes):让IT人员得以减轻管理需求以及与数据市场部署相关的运营复杂性。

  2、数据服务:让分析员轻松地发掘、合并和分享纵横数据市场的有用数据。

  3、数据协作:提供丰富的社交网络沟通功能,让数据和数据分析员紧密联系,加快协作和深入分析的流程。

  总结起来,Chorus主要功能如下:

  那么,作为此次大会的明星,Hadoop与Chorus究竟是什么关系呢?总结如下:

  Hadoop作为一个数据源被注册到Chorus中。过程为:

  1. 浏览Hadoop 分布式文件系统 (HDFS)目录

  2. 预览HDFS文件

  3. 把HDFS文件添加到分析沙箱中

  4. 为HDFS文件添加注解

  统一的数据分析平台,包括结构化数据 (数据库表)以及非结构化数据 (HDFS文件)。

  在介绍完Chorus的原理等理论之后,EMC的专家还为我们给出了一个电信行业数据分析。数据来源包括:

  •    Hadoop: 100G CDR数据, 10,000文件,每个文件10M
  •   Greenplum数据库: 1000万条客户详细信息

  分析流程如下:

  1. 浏览或者预览CDR文件

  2. 将HDFS文件作为外部表添加到分析沙箱

  3. 执行查询分析。可以执行一些复杂的连接查询,结合HDFS外部表和Greenplum数据库表来计算一些社交网络变量。

  4. 发布和共享见解

  EMC Atmos

  其次,EMC的第二位专家关注的焦点是EMC Atmos。作为EMC公司的一款云存储基础架构,Atmos的核心功能如下:

  •   提供独立于位置的通用访问功能,全球不受限制的命名空间。
  •   策略智能管理数据存放的位置和形式。
  •   一体式数据服务和灵活访问方式,通过策略智能管理数据压缩,重复数据删除和放置,提供Web服务访问和GeoDrive文件访问方式。
  •   灵活的管理,包括多租户环境,自动配置和自动修复。

  Atmos即支持私有云,公有云,以及混合云三种方式。Atmos提供的云服务可实现按需存储,Atmos云提供商分布于多个地理位置,提供不同的服务级别以满足客户需求。

  Atmos的多租户环境是保证了单个基础架构中的安全隔离。一方面,对于Atmos而言,共享存储空间,与地理位置无关,所有用户,部门,应用程序共享统一的云环境,这样有效降低存储成本。另一方面,租户动态创建,多层次策略管理,从而降低了管理成本。

  大数据管理与分析研究概览

  最后,EMC的第三位专家关注的焦点是大数据管理与分析研究。我们知道,Hadoop的核心是MapReduce。在谈到基于Hadoop的实时交互式大数据分析平台时,重点突出的是:

  •    Pipelined MapReduce任务调度和容错,包括不同Job间Pipeline以及同一Job中Map和Reduce任务间Pipeline;基于分组的任务调度和容错,使Pipeline的任务尽量平滑。
  •   基于在线MapReduce的并行数据挖掘工具库,既支持迭代类、递归类挖掘算法,也支持交互式的数据分析和部分结果的即时展现。

  大数据管理与分析面临的一个难题是,面向事务密集型处理的云级并行数据库时。在谈到并行事务处理时,主要围绕智能数据分片,主动数据复制,多主间同步和协作这三个角度。而所谓的智能数据分片指的是根据对应用负载和数据库模式的分析,帮助用户自动选择最优(最大化系统吞吐率)的数据分片方案。为助于理解,EMC的专家还给出了智能分片推荐演示系统,如下:

  值得一提的是,今年8月8日,在EMC中国卓越研发集团成立亓周年之际,EMC公司宣布,在原EMC中国实验室和EMC首席技术官办公室技术创投组的基础上,组建EMC中国研究院。EMC中国研究院专注于前沿技术研究与创新,主要设有大数据、云基础架以及云平台与应用三大实验室。

      大会更多详情,请点击以下专题:

0
相关文章