技术开发 频道

爱奇艺在Hadoop生态中大数据平台实践

  【IT168 专稿】2014年4月10日-12日,第五届中国数据库技术大会(DTCC 2014)在北京五洲皇冠国际酒店拉开序幕。在为期三天的会议中,大会将围绕大数据应用、数据架构、数据管理(数据治理)、传统数据库软件等技术领域展开深入探讨,并将邀请一批国内顶尖的技术专家来进行分享。本届大会将在保留数据库软件应用实践这一传统主题的基础上,向大数据、数据结构、数据治理与分析、商业智能等领域进行拓展,以满足于广大从业人士和行业用户的迫切需要。

爱奇艺Hadoop大数据平台实践
▲第五届中国数据库技术大会

  自2010年以来,国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix两大技术社区,已经连续举办了四届中国数据库技术大会,每届大会与会规模超千人,大会云集了国内水平最高的数据架构师、数据库管理和运维工程师、数据库开发工程师、研发总监和IT经理等技术人群,是目前国内最受欢迎、人气最高的的数据库技术交流盛会。今年是中国数据库技术大会五周年,大会将继续秉承分享IT非常好的应用实践的宗旨,围绕传统数据库和大数据两条技术主线,在目前IT技术和管理快速的大背景下,更加深入地探讨数据库技术的现状和未来的发展方向,以及我们在这个转型过程中的实践经验和教训。

  在4月10日下午举行的《Hadoop技术实战和应用》专场演讲中,来自爱奇艺技术产品中心的专家孙琦老师为我们分享了关于《爱奇艺在Hadoop生态中大数据平台架构与实践》的相关话题。

爱奇艺Hadoop大数据平台实践
▲爱奇艺技术产品中心的专家孙琦老师

  根据孙琦老师介绍,自2014年1月以来,爱奇艺PPS已经连续2月日均覆盖、月度覆盖、月度时长和人均月度时长均排名第1。在Hadoop生态建设方面,爱奇艺目前的状况是:

  · 与2010年8月开始搭建,最初只有50台机器;

  · 目前已经具有一定规模,且在迅速扩容;

  · 多机房部署,专线互联;

  · 涵盖Apache Hadoop生态的所有主要组件;

  · 物理机集群与虚机集群共存的部署模式;

  · 公共集群和专属集群共存的运营模式。

爱奇艺Hadoop大数据平台实践

  据了解,爱奇艺Hadoop目前处理的数据量为20PB左右,日处理Job数达到了100000+,服务包括搜索、广告、推荐、日志分析、BI等等。尽管爱奇艺在应用Hadoop方面已经取得了一系列的成就,但孙琦老师表示,目前爱奇艺还没完全进入Hadoop 2.0时代。

  爱奇艺Hadoop生态图

  · 数据格式:ProtoBuf、JSON为主,统一数据定义,以便数据共享

  · 批处理以Hive作业为主

  · Storm、Spark实时计算资源托管在Mesos或Openstack虚机之上

  · 大部分HBase应用是为离线计算服务

  · 作业提交管理:入口机 + 专用提交系统

  · 系统监控:传统监控 (Nagios, Zabbix) + Metrics数据聚合

  · 成本审计:货币化度量项目组开销

爱奇艺Hadoop大数据平台实践

  最后,针对爱奇艺Hadoop生态系统,孙琦老师也进行了功能方面的回顾。包括已经跨机房在多个HBase集群之间配置;数据延迟在毫秒级;为业务组提供了跨机房数据共享的条件;几次的网络故障已经证明了该机制的可靠性。

  对于未来的计划,孙琦老师表示,未来将增加HDFS Erasure Code的支持、支持Kerberos;进入Hadoop 2.0,实现多框架对资源的共享;统一MR/Spark/Storm作业提交界面,以及深度整合Openstack、Mesos与Hadoop生态。

1
相关文章