技术开发 频道

IDF2013:英特尔超越Hadoop的大数据

  【IT168 专稿】2013年4月10日消息,2013年英特尔信息技术峰会(IDF 2013)在北京国家会议中心举行,本届IDF主题为“未来,用”芯“体验”,宣示英特尔更加以用户体验为核心,立足英特尔架构继续扩大和深化产业合作,全面推动计算技术创新、芯片制造创新、应用体验创新、终端形态创新和云端智能创新,以强大的计算力开启一个全新的个性化体验新时代。来自中国和全球各地的数千名软硬件开发人员、技术管理人员及媒体、分析师将汇聚一堂,体验前沿的技术成果,探索未来的创新趋势。

  Intel Developer Forum(英特尔信息技术峰会,简称IDF)是由英特尔公司主办的技术讲座,在美国、中国等7个地区举办,每年分春秋举办两次。IDF主要由主题演讲、技术专题讲座以及技术展示组成,主题演讲的演讲者均是英特尔的高层人士,演讲的题目都具有相当的前瞻性,作为一家在处理器、网络处理器等领域处于领先地位的公司,IDF的确是让业界获悉英特尔最新动向的最佳场合。

IDF2013:英特尔超越Hadoop的大数据
▲IDF 2013现场报道专题

  Hadoop将MapReduce并行计算带入主流应用。然而,随着大数据需求和使用模式的扩大,Hadoop已暴露出诸多局限性。今天下午由英特尔软件与解决方案事业部工程总监兼首席工程师Jason Dai和英特尔高校科研协作办公室科研计划总监芮勱恪博士共同带来的《超越Hadoop的大数据:未来的研究方向》课程,介绍了英特尔与大学合作伙伴为超越这些限制所进行的合作研究,并强调了为将部分成果应用到生产环境所进行的努力。

IDF2013:英特尔超越Hadoop的大数据
▲英特尔软件与解决方案事业部工程总监兼首席工程师Jason Dai和英特尔高校科研协作办公室科研计划总监芮勱恪博士

  业界对大数据的理解不尽相同,在英特尔的两位专家看来,大数据具有数量大、速度快、现有系统与算法难以处理的特点,具体来说,数量大是指有TB级转向PB级,需要智能(而非强力)的大规模并行处理;速度快是指无所不在的传感器带来了新的海量数据,并且摄取困难;处理难是指需要复杂分析,并整合多种数据类型。英特尔软件与解决方案事业部工程总监兼首席工程师Jason Dai表示,数据应当是资源,而非负载,现有数据处理工具不够完善。

IDF2013:英特尔超越Hadoop的大数据
▲大数据生态系统下的Hadoop

  谈到Berkeley数据分析系统,芮勱恪博士表示,Berkeley数据分析系统包括三个部分:Mesos,资源管理平台;SCADS,不依赖规模的存储系统;PIQL,Spark处理框架三部分组成。其中Spark是面向再利用工作数据集的应用的内存集群计算框架,其主要理念:RDD“可恢复、分布式数据集”,发生故障后可自动重新构建。Spark基于“数据沿袭”的容错机制,存储大型工作数据集。

  据介绍,复杂任务、交互式查询和在线处理都需要一项计算是Hadoop MapReduce所不具备的,即高效的数据共享功能,Spark具有内存数据共享功能。英特尔的专家认为Hadoop中部署的MapReduce十分有用,不过内存实时显示出重要优势,图形算法可能更适合现有问题。英特尔将继续和大学研究人员合作,致力于在生产环境中落实研究成果。

0
相关文章