技术开发 频道

Hadoop中国2011:专访EMC中国研究院院长

    【IT168 专稿】由中国科学院计算技术研究所主办的 Hadoop中国2011云计算大会将于12月2日至3日在北京会议中心召开,这将是Hadoop in China社区的一次年度技术盛会! 大会特别邀请了Condor的创始人University of Wisconsin–Madison的Miron Livny教授、以及来自Google、Facebook等国内外著名互联网公司和IT企业的学者和资深开发人员到场演讲并进行技术交流,部分专家是首次来中国访问。EMC是Hadoop中国2011云计算大会协作单位,届时EMC的副总裁Ama Ronaldo将会做主题演讲。大会报名注册地址:http://hadoop.it168.com/index3.html

  11月1日,记者就大家关心的一些Hadoop话题采访了EMC中国卓越研发集团首席技术官暨EMC中国研究院院长陶波。以下是访谈部分内容整理。

Hadoop中国2011:专访EMC中国研究院院长

EMC中国研究院院长陶波

  1、存储一直是EMC的立身之本,它打败了IBM、HP等公司的存储业务。目前EMC可以说左手“云计算”,右手“大数据”。我们常说大数据,难道我们以前的数据不够大么?为什么现在就开始变大了?能不能谈一下您对大数据的理解。

  数据确实比原来大多了,CPU的频率会定期翻倍,会以指数级别增长,具体到实际的应用中,有越来越多的厂商发现当数据越来越大时,在数据处理方面难以跟上。他们发现,当数据很大,没有太多的管理人员来处理这些数据,在一天之内分析数据时,数据仓库处理跟不上,存储也跟不上。我期待EMC提供一个跨存储、横向扩展的解决方案,只要把一个机器放上去,就能实现自动化扩展,不需要人工干预。

  2、您刚才谈到了数据仓库,我们来对比一下传统的数据仓库与现有的Hadoop的流处理。传统的数据仓库需要检测所有的数据,把所有的数据处理一遍后才可以得出精确的结论。但这在大数据时代显然是不现实的,而Hadoop所关注的焦点是能不能对过去的数据进行一个汇总,同时只看过去一小段数据,就可以得出相对精确的结论。不是所有的企业都有自己的Hadoop,像EMC、Google、微软等这些大企业才有自己的Hadoop。请问EMC与其它厂商相比,有什么不同点,具体有哪些优势?

  目前提供服务支持的商业Hadoop的只有三家,其中包括IBM、EMC等。假如你不想买开源的Hadoop,获取商业License并想获取服务支持的,就只有这三家。Google、微软也在不同程度上使用Hadoop,但是他们的Target Market不太一样。我们EMC专注更多的是大数据应用领域。针对大数据客户,我们比较关注如何帮助用户处理大数据。

  我们也很关注Hadoop在虚拟平台上的表现,世界上越来越多的服务器在使用虚拟化,澳大利亚占到70%,美国占到50%。Hadoop面向的是非结构化数据,而用户的数据存储在结构化数据库里,所以结构化和非结构化的数据之间需要很好的适配与衔接。这正是我们所关注的。EMC本身是做数据仓库起家的,我们希望借助Hadoop为我们带来更多的机会。

  3、谈到虚拟化,我在您的微博上发现您的微博上说,今年的Vforum 大会上,团队会去讲vFabric Data Director和其它相关产品,其中有一个Panel Discussion。重量级的嘉宾会和大家谈云环境下的应用给开发,包括新的应用框架、数据库、hadoop等等,我作为IT168技术开发频道的记者,也参加了VMware Vforum 2011云环境下的应用开发这场专题讲座,请问您能谈谈会议中准备提及Hadoop的内容都有哪些呢?

  上周由于临时紧急事情去了美国,我没能参加Vforum,是我们EMC的同事代我做的演讲。我们主要讲的是vFabric Data Director。在Panel Dicussion互动环节,我们就“云计算的应用”话题与各位专家一起探讨。关于云计算下的应用,在整个应用层面,包括LaaS、PaaS、SaaS,我们专注于讨论PaaS平台,包括数据和中间件,实际上PaaS就是云计算的中间件。

  4、EMC中国实验室迄今成立了五年,在中国有三大实验室,分别是大数据实验室、云基础构建实验室、云平台与应用实验室。提到大数据,我们不得不谈Hadoop,请问大数据实验室在Hadoop方面采取的战略是什么,目前取得了哪些成果?

  EMC中国研究院是中国研发中心的一部分,其中包括一个大数据实验室,是我们EMC在Hadoop领域工作的一部分。还有一部分是属于其它产品分支,比如现在卖的Hadoop软件、机器等等。这些都属于GreenPlum的分支下。

  像我们现在销售的Hadoop一体机,作为研究院来讲,我们要和大学合作,研究2-3年的问题。当数据量很大的时候,很难把所有的数据处理一遍,我们的方案是先存储一个Summary,然后新数据会参考Summary的结果,再加上参考过去一小段时间的新数据,然后得出一个结论,我们认为这是很重要的,不是每个公司都有像Google具有这么强大的机器,相对会损失一些灾备性。

  横向扩展的文件系统与Hadoop之间是什么样的关系?这是一个很重要的方向,随着数据越来越大,Laas这种模式会越来越多。当更多的数据存储在Hadoop上,横向扩展是研究的一个重点。

  5、您刚才也提及到了GreenPlum的分支下的Hadoop软件,EMC收购了GreenPlum公司,这是一家面向非结构化的数据库的软件公司,EMC围绕GreenPlum创建了EMC Hadoop和Greenplum 数据库等产品,与Oracle以及Teradata已有的加速业务分析平台形成了强有力的竞争关系。请问EMC的Hadoop与Oracle的Hadoop相比,有哪些核心的竞争优势?

  据我所知,Oracle好像最近刚刚在一体机中开始支持Hadoop,它起步比较晚。我们两家公司在业务的焦点上也不太一样。以后Oracle数据库不可能适合所有的企业,不管是在云计算上,还是在hadoop上。

  我们的团队也不太一样。原雅虎的核心团队组成了我们现在的Hadoop研发团队,他们是最早一批做Hadoop的。虽然雅虎最近运气不太好,他们的lost成为我们的gain。

  除了团队的方面,我们实际上是存储上的老大,存储上面本身有很多CPU,我们在性能上占很大优势。

  6、总结一下,我们刚才谈了很多关于What的问题,包括什么是大数据等问题,那么我们到底怎么去分析这些大数据,解决这个How的问题。将有谁来分析这些大数据。目前阿里巴巴有两百个数据分析家,您对数据分析家的前景是怎么看待的?

  我如果现在上大学,我可能会朝这个方面努力,这是一个很不错、要求也很高的职业,为什么我觉得数据分析家很重要呢?

  因为数据还没有进行深层次的扩展,还有很多商业价值。一方面我们工具不够,另一方面我们人不够,我们大多数还没有想到这个问题,去着手做事情。从提出问题,到解决问题,需要数学、统计学、计算机科学、数据库等综合的知识才能胜任数据分析家的角色。另一方面,做数据分析的非常多,这个vision的投资代表着未来,也就是说,像数据分析家的人群会成为数据分析的主流人群。

  总之,世人眼里,EMC一直是存储老大,如今看来,EMC似乎志向更为高远,不仅硬件做到数一数二、在软件、服务、方案也是捷报频传。看来EMC由“硬”变“软”哦。相信EMC会在Hadoop以及其它软件领域一路高歌猛进、越来越好。

  个人简介:陶波博士分别于1992年和1998年取得清华大学学士和普林斯顿大学博士学位,目前担任EMC中国研发中心首席技术官(CTO)及EMC中国研究院院长,同时也是中国云计算专家委员会委员。加入EMC之前陶博士任职于Google,先于美国再转至北京,负责网路相簿Picasaweb以及Google Video等多项产品。近年来他主要专注于云计算和大数据计算等领域。 Hadoop中国2011云计算大会专题信息:http://hadoop.it168.com/

 

0
相关文章