【IT168 专稿】2013年11月22-23日,作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团酒店隆重举行。届时,来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。
Haoop中国技术峰会由China Hadoop Summit专家委员会主办,由IT168、ITPUB、ChinaUnix协办,渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题,旨在通过开放、广泛的分享和交流,着力于促进中国企业用户提高应用Hadoop的能力和水平,降低Hadoop技术应用门槛和投资预算门槛,推广大数据的应用价值。
在此次大会即将召开之际,IT168记者有幸采访到了本次大会的组委会专家,VMware高级经理王蔚东先生,其2012年加入VMware公司,负责虚拟化和云计算领域中数据存储、管理及利用的咨询和解决方案。在数据仓库、大数据及数据分析有多年的经验。
Hadoop在国内发展进入快速增长期
Hadoop是一项开源技术,目前网络上大概有上千个论坛、社区,技术门槛也比较低。据王蔚东介绍,从2008年开始,很多国外的互联网企业就开始采用Hadoop,目前,也有很多传统企业开始部署Hadoop, 比如AT&T、沃尔玛等。
“目前在国内,我们知道像淘宝、京东等很多企业已经开始使用Hadoop,而更多的企业也已经开始尝试使用。由于企业对数据的重视度不断提高,市场竞争的加剧,也由于Hadoop及相关大数据技术有了很大的完善,Hadoop服务提供商越来越多,国内的电信、电销、物流等行业的需求非常强烈,Hadoop在国内的的应用会进入到一个快速增长期。”
VMware助力Hadoop与虚拟化结合
传统虚拟化给企业带来好处已经众所周知,无论是丛IT系统构建,还是从运行维护,乃至运营管理,我们都实实在在地感受到它的好处。“Hadoop被用来解决企业大数据的问题,我过去看到,大多数的应用场景是单独建立一个x86服务器的集群来跑map/reduce任务,随着数据量和数据查询分析任务的增加,服务器的数量也要不断增加。这时,就带来了一系列新的问题,首先这个Hadoop集群需要有IT人员来专门维护和管理,其次,我们知道日常Hadoop任务是会有波峰波谷的分布,往往是某一时段,任务会比较密集,机器的CPU、IO和存储会非常繁忙,而其它时间,机器就比较空闲,存在资源浪费的情况。”王蔚东表示。
由此,很多使用和尝试Hadoop的企业,就希望能够把这样一个越来越大的Hadoop集群放到自己的云平台里,能够统一管理和使用。除此之外,我们知道,Hadoop本身是一项开源的技术,虽然入门容易,但是要大规模企业级应用,还存在非常多的困难。比如安装部署、Fix Bug、升级等等,即使目前有一些Hadoop的商用版,可以提供部分的现场服务,但是也会导致使用者的整体拥有成本大大增加。
据王蔚东介绍,目前VMware就是要解决这个问题。据了解,从2012年初, VMware就与Apache Hadoop社区展开合作,开始推广一个开源项目—Serengeti,通过把Apache Hadoop节点从底层物理基础架构剥离,VMware可以将云基础架构的优势带给Hadoop,包括快速部署、高可用性、非常好的资源利用率、灵活和安全多租户。
“事实上,很多Hadoop发行版的厂家,都曾提出来Hadoop不适合在虚拟化平台上运行,理由是Hadoop的特点是在本地磁盘上运行,而虚拟化都是在共享磁盘上;而且虚拟机增加了额外开销,在虚拟机上运行Hadoop性能会变慢。”但Serengeti推出后,彻底改变了这些看法。多数人知道Vsphere的工作模式是将数据存储到共享磁盘,其实Vsphere也支持本地磁盘,这完全取决于用户的应用场景。