技术开发 频道

解读英特尔大数据:传递大价值的基础

  【IT168 现场报道】2013年11月22-23日,作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。


2013年Hadoop中国技术峰会现场报道

  Hadoop中国技术峰会由China Hadoop Summit专家委员会主办,由IT168、ITPUB、ChinaUnix协办,渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题,旨在通过开放、广泛的分享和交流,着力于促进中国企业用户提高应用Hadoop的能力和水平,降低Hadoop技术应用门槛和投资预算门槛,推广大数据的应用价值。


Intel数据中心软件部首席架构师陈奇

  在上午的主题演讲中,Intel数据中心软件部首席架构师陈奇发表了主题为《英特尔大数据———传递大价值的基础》的演讲,其主要介绍了英特尔怎么利用硬件的优势实现Hadoop性能的加速和功能的改进等。

  据陈奇表示,目前国内提出了很多关于大数据的口号,比如智慧城市、云计算等。“所有这些可能都离不开数据,特别是现在更强调是大数据时代。这在中国可能比美国、欧洲等等国家在数据的产生,数据的量比他们多的。很多企业在我没说Hadoop之前很多就指明要Hadoop,这些企业是真正的企业级的Hadoop。”

  在谈到Hadoop,特别是大数据能给英特尔带来哪些帮助时,陈奇介绍说,“比如芯片的设计,以往芯片的设计可能用很长的周期,而使用Hadoop的平台,进行历史数据的挖掘验证,生产周期会缩短20%。另一方面,零售的管理等等,客户渠道的打通等等,英特尔是利用大数据的平台提高生产效率。”此外,英特尔也用过大数据平台,解决了类似于网络恶意攻击等安全问题。

  英特尔大数据平台起源

  据悉,作为一家硬件生产商,英特尔大数据平台运行在开放平台上,大部分是英特尔的CPU在进行。同时,英特尔在网关方面也实现了创新,“英特尔不光是生产CPU跟SSD,更进一步的是同时生产网关,一般的网关四个端口,英特尔把它变成两个端口,这样端口方面节约了5%,性能上有三倍的提高,网络的速度有15%的提高,英特尔利用硬件的技术帮助实现大数据。”从2009年开始,英特尔开始大数据战略,并进行Hadoop发行版的开发工作,去年,英特尔正式发布了该平台。

  英特尔在硬件上有独到的技术,用了英特尔的技术Hadoop有什么提高?首先是CPU,大部分的Hadoop是跑在英特尔的CPU,英特尔利用CPU本身的指令对Hadoop进行了改进,有15%的性能提高。SSD技术其实Hadoop应该考虑到SSD技术,但这并不是每个厂商都有这种技术能力。

  “网络的传输,英特尔本身也生产网卡等等,Hadoop是用硬件的技术改进Hadoop的技术。一个TB的数据从4小时提高到7分钟。因为别的厂商不会说4个小时提到7分钟,只会说4个小时提到2小时,英特尔4小时提高到7分钟,改进是非常显著的。”陈奇介绍。

  英特尔的Hadoop有什么样的改进?这里列举了一些,主要是安全上,首先Hadoop要用,因为Hadoop是比较原始的,最初的安全机制非常不好,现在加了不同的安全机制,英特

  尔这方面想到,能做更简单的加密、解密的方法,英特尔的指令新增加了七条指令,一般人没学过硬件的话,可能觉得很头疼,英特尔这方面有自己的优势,利用这个执行加密解密的改进,这个速度会增加20%。还有对角色的访问、包括每格的控制等等,这样就增加了安全性,因为安全对企业是非常重要的。英特尔把Hadoop打造成一个企业可以用的Hadoop。

  英特尔大数据平台架构

  另外,陈奇也着重介绍了英特尔大数据平台的架构。其表示,安全上,英特尔在安全上做的,不是Hadoop里的加密,这是数据进了Hadoop之前先进行加密。数据中心有这样的产品,把数据在进入Hadoop前进行加密,导出的时候也进行加密,还有在HDFS上加密等等。

  Kerbose配置非常的烦琐,就算手册给你可能要花一两个小时真正的配置好,这并不是非常现实的,对企业的管理人员更希望包装起来,英特尔正在考虑用不同的认证机制来取代Kerbose,英特尔也会贡献到开元的社区里。

  HDFS的加密,不光是加密的性能,加密解密的速度有多快,英特尔肯定是做得最好的。加密有六倍的提高,解密有二十倍的提高,每加入一个Hadoop都要进行加减。CRC会比一般的快。

  Hive用得是比较广的,它的缺点是速度很慢,只有数据量非常大的时候可以跟传统的方式进行匹配。Hive只能把性能提高,英特尔对Hive进行了改进。需要一个专业的团队和专业的企业来帮着改进这些东西。此外,Mapreduce是真正的延迟的根源,这是要跑得更快的问题,不光是起来一万个Mapreduce。

  自适应数据快的复制,比如说企业帐单的查询,就会产生瓶颈,实际上Hadoop有三个备份这样可以提高并发率,但是能不能对热点进行更多的备份,这样并发度会提高,而且HBRSE里,它是速度上可以匹配,HBRSE进行操作的时候会影响速度,是不是可以少复制或者是延迟复制,这是英特尔想到的,这样让性能提高。

0
相关文章