解读英特尔大数据：传递大价值的基础-技术开发专区

解读英特尔大数据：传递大价值的基础

作者：王晓东编辑：王晓东 2013-11-17 16:19 IT168网站原创

　　【IT168 现场报道】2013年11月22-23日，作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会，2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者，以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。

▲2013年Hadoop中国技术峰会现场报道

　　Hadoop中国技术峰会由China Hadoop Summit专家委员会主办，由IT168、ITPUB、ChinaUnix协办，渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题，旨在通过开放、广泛的分享和交流，着力于促进中国企业用户提高应用Hadoop的能力和水平，降低Hadoop技术应用门槛和投资预算门槛，推广大数据的应用价值。

▲Intel数据中心软件部首席架构师陈奇

　　在上午的主题演讲中，Intel数据中心软件部首席架构师陈奇发表了主题为《英特尔大数据———传递大价值的基础》的演讲，其主要介绍了英特尔怎么利用硬件的优势实现Hadoop性能的加速和功能的改进等。

　　据陈奇表示，目前国内提出了很多关于大数据的口号，比如智慧城市、云计算等。“所有这些可能都离不开数据，特别是现在更强调是大数据时代。这在中国可能比美国、欧洲等等国家在数据的产生，数据的量比他们多的。很多企业在我没说Hadoop之前很多就指明要Hadoop，这些企业是真正的企业级的Hadoop。”

　　在谈到Hadoop，特别是大数据能给英特尔带来哪些帮助时，陈奇介绍说，“比如芯片的设计，以往芯片的设计可能用很长的周期，而使用Hadoop的平台，进行历史数据的挖掘验证，生产周期会缩短20%。另一方面，零售的管理等等，客户渠道的打通等等，英特尔是利用大数据的平台提高生产效率。”此外，英特尔也用过大数据平台，解决了类似于网络恶意攻击等安全问题。

　　英特尔大数据平台起源

　　据悉，作为一家硬件生产商，英特尔大数据平台运行在开放平台上，大部分是英特尔的CPU在进行。同时，英特尔在网关方面也实现了创新，“英特尔不光是生产CPU跟SSD，更进一步的是同时生产网关，一般的网关四个端口，英特尔把它变成两个端口，这样端口方面节约了5%，性能上有三倍的提高，网络的速度有15%的提高，英特尔利用硬件的技术帮助实现大数据。”从2009年开始，英特尔开始大数据战略，并进行Hadoop发行版的开发工作，去年，英特尔正式发布了该平台。

　　英特尔在硬件上有独到的技术，用了英特尔的技术Hadoop有什么提高?首先是CPU，大部分的Hadoop是跑在英特尔的CPU，英特尔利用CPU本身的指令对Hadoop进行了改进，有15%的性能提高。SSD技术其实Hadoop应该考虑到SSD技术，但这并不是每个厂商都有这种技术能力。

　　“网络的传输，英特尔本身也生产网卡等等，Hadoop是用硬件的技术改进Hadoop的技术。一个TB的数据从4小时提高到7分钟。因为别的厂商不会说4个小时提到7分钟，只会说4个小时提到2小时，英特尔4小时提高到7分钟，改进是非常显著的。”陈奇介绍。

　　英特尔的Hadoop有什么样的改进?这里列举了一些，主要是安全上，首先Hadoop要用，因为Hadoop是比较原始的，最初的安全机制非常不好，现在加了不同的安全机制，英特

　　尔这方面想到，能做更简单的加密、解密的方法，英特尔的指令新增加了七条指令，一般人没学过硬件的话，可能觉得很头疼，英特尔这方面有自己的优势，利用这个执行加密解密的改进，这个速度会增加20%。还有对角色的访问、包括每格的控制等等，这样就增加了安全性，因为安全对企业是非常重要的。英特尔把Hadoop打造成一个企业可以用的Hadoop。

　　英特尔大数据平台架构

　　另外，陈奇也着重介绍了英特尔大数据平台的架构。其表示，安全上，英特尔在安全上做的，不是Hadoop里的加密，这是数据进了Hadoop之前先进行加密。数据中心有这样的产品，把数据在进入Hadoop前进行加密，导出的时候也进行加密，还有在HDFS上加密等等。

　　Kerbose配置非常的烦琐，就算手册给你可能要花一两个小时真正的配置好，这并不是非常现实的，对企业的管理人员更希望包装起来，英特尔正在考虑用不同的认证机制来取代Kerbose，英特尔也会贡献到开元的社区里。

　　HDFS的加密，不光是加密的性能，加密解密的速度有多快，英特尔肯定是做得最好的。加密有六倍的提高，解密有二十倍的提高，每加入一个Hadoop都要进行加减。CRC会比一般的快。

　　Hive用得是比较广的，它的缺点是速度很慢，只有数据量非常大的时候可以跟传统的方式进行匹配。Hive只能把性能提高，英特尔对Hive进行了改进。需要一个专业的团队和专业的企业来帮着改进这些东西。此外，Mapreduce是真正的延迟的根源，这是要跑得更快的问题，不光是起来一万个Mapreduce。

　　自适应数据快的复制，比如说企业帐单的查询，就会产生瓶颈，实际上Hadoop有三个备份这样可以提高并发率，但是能不能对热点进行更多的备份，这样并发度会提高，而且HBRSE里，它是速度上可以匹配，HBRSE进行操作的时候会影响速度，是不是可以少复制或者是延迟复制，这是英特尔想到的，这样让性能提高。

关注我们