技术开发 频道

专访:Hadoop中国2011大会联合主席查礼

    【IT168 专稿】由中国科学院计算技术研究所主办的 Hadoop中国2011云计算大会将于12月2日至3日在北京会议中心召开,这将是Hadoop in China社区的一次年度技术盛会! 大会特别邀请了Condor的创始人University of Wisconsin–Madison的Miron Livny教授、以及来自Google、Facebook等国内外著名互联网公司和IT企业的学者和资深开发人员到场演讲并进行技术交流,部分专家是首次来中国访问。Hadoop 中国2011 大会报名注册地址:http://hadoop.it168.com/index3.html专访:Hadoop中国2011大会联合主席查礼

Hadoopin China开源社区发起人查礼

  10月27日,Hadoop中国2011云计算大会组委会举行了媒体见面会。记者就大家关心的一些Hadoop话题采访此次Hadoop中国大会的程序联合主席查礼博士。以下是访谈部分内容整理。

  1、Hadoop目前在IT业界有哪些重要的应用?结合这些应用,谈谈Hadoop为什么这么火?

  总体来讲,Hadoop依然是大数据(Big Data)处理领域的王牌软件。

  目前还是互联网行业应用Hadoop 最为广泛。除了大家都比较了解的通用数据处理,去年年底Facebook上线了message系统,也称mail系统,该系统是迄今最大的HBase应用,提供邮件/消息的持久存储和实时读取能力。

  国内淘宝在用Hive构建数据仓库,进行海量数据的分析和挖掘,为淘宝的数据服务产品提供了坚实的基础。Hadoop帮助企业从海量数据中获取有用信息,提供了获取价值的可靠途径和有效手段。在这些叱咤风云的互联网企业的带动下,一方面,其他互联网企业看到Hadoop的潜在价值,也开始纷纷效仿。另一方面,传统IT企业也发现了Hadoop的商业价值,基于Hadoop提供全套解决方案,为那些需要完整产品的用户提供相应的产品和服务。

  值得注意的是,互联网企业和传统IT企业的业务模式不一样。理论上来说,前者维护一套系统,追求低成本下的高性能,是不是标准化不是最重要的因素;

  后者需要考虑与市场上其他产品的标准化对接,或者用新技术、新软硬件产品创立一个新市场,标准化显得很重要。

  2、Hadoop组件HBase与关系型数据库相比,有哪些优势?

  总的来说,HBase走的是专业化简约路线,专业化简约是计算所徐志伟老师提出的云计算的重要概念。意思就是,通过功能简化可以达到增强某方面的功能和性能。具体到HBase,从三个方面来说,第一扩展性好,可以横向扩展到千台以上规模,数据均衡分布的话,性能还是线性的。第二性能好,因为走了专业化简约路线,简化了很多不需要的功能,所以可以把性能拉得很高。第三是可靠性好,HBase底层使用HDFS作为存储,用副本以软件的方式保证数据可靠性。即使有个别机器出现故障导致副本丢失或损坏,也不会影响整个系统的运行和服务。还有一点对于特定应用场景也算是优势,即schema free,没有模式的限制数据模型很灵活,这样才有可能按照应用的需要放置数据,数据的分布可以自由控制。

  3、HDFS与其它的分布式文件系统有什么区别?优势主要体现在哪些方面?

  与HDFS相比的分布式文件系统,最大的差别在于提供的接口语义和标准不同,所以内部的一些技术也就不一样。与Google的GFS一样,HDFS应该说是一种简化了的专用文件系统,最适合存储大数据文件,比如上百GB的文件。特点是数据块通常较大;通常不支持随机读写,只支持顺序读和追加写操作;数据块有多副本,用软件方式管理这些副本,从而提供数据的高可靠性;与上层Map/Reduce结合后,可以说是处理海量数据的利器。

  4、您觉得如何把虚拟化技术应用到Hadoop中去?

  像Hadoop这样的系统,其主要目的是处理数据,可想而知磁盘I/O占用是很高的。而目前业界成熟的虚拟化技术不能做到扩大I/O带宽的作用,所以目前用虚拟机来运行Hadoop的好处并不多。我只看到如果这样用,带来的好处只有基础设施管理的方便性。但这对研究界来说却是个很好的问题,有没有办法能够弹性扩展机器的I/O带宽?

  5、支撑Hadoop生态系统的基础设施(数据中心)都有哪些?它们有什么优势,遇到了什么挑战,是不是成熟?

  对于数据中心来说,应用Hadoop还不是很成熟。目前数据中心应用最多的是虚拟化技术,这个可以直接给数据中心带来价值,即降低电费、管理成本等。如果有数据中心想提供数据处理服务,可以使用Hadoop,但业务模式还需要想清楚,并且需要技术团队实现这个业务模式。比如亚马逊的S3、simpleDB等;新浪的SAE有点这方面的意思。换句话说Hadoop可以作为这些系统级服务的支撑技术,但直接用Hadoop还达不到目的。

  6、结合近期微软加入Hadoop阵营,谈谈您对Hadoop前景的认识。

  Hadoop已经成为互联网企业的标准配置,非互联网的IT企业看到Hadoop在Big Data处理领域的商业价值,肯定会以Hadoop为基础或者为标准打造一些有针对性的产品,为诸如电信、政府、广告、大型企业等需求提供服务。目前互联网企业动辄千台规模在传统IT领域肯定是不现实的,那么面向行业的小型化的技术和产品应该是可以预见的趋势。目前还看不出Hadoop社区有这样的项目出现,这应该是一个机会,无论是开源还是商业都是如此。

  个人简介:查礼,2003年获北京理工大学工学博士,2003年1月至今在中科院计算所工作,研究组长、副研究员。主要研究方向是分布式系统及大规模数据计算,包括分布式系统软件体系结构,大规模分布式资源管理及任务调度,大规模数据计算系统等。2007年以来,作为技术总负责人参与国家863计划课题“中国国家网格软件研究与开发”,负责软件总体设计和核心技术研发。参与XtreemOS,OMII-EU/OMII-UK欧盟第六框架和英国e-Science国际合作项目。是Hadoopin China开源社区(www.hadooper.cn) 发起人,Hadoopin China2008~2011大会组织者。Hadoop中国2011云计算大会专题详情:http://hadoop.it168.com/

0
相关文章