技术开发 频道

叶炜晨:视频遇上大数据,会擦出什么火花

  【IT168 专稿】在近期的视频网站大会上,除了“独播”这种老生常谈的话题,大数据名副其实当选为视频网站宣传时最爱的词,爱奇艺也不例外。早在2013年,爱奇艺就着手将大数据“落地”,并研发了一套实时数据采集计算的综合解决方案—Venus。实时数据采集对视频行业到底意味着什么?当视频遇上大数据到底会擦出什么样的火花?这些谜题都会由本期采访嘉宾--叶炜晨,一一揭晓。

叶炜晨:视频遇上大数据,会擦出什么火花
叶炜晨

  叶炜晨,毕业于上海交通大学计算机系。2013年加入爱奇艺云平台,14年起开始负责爱奇艺HBase业务,15年起开始负责爱奇艺实时计算相关业务。

  爱奇艺是如何运用大数据的呢?

  1.选用合适的数据处理系统

  叶炜晨表示一些公司的大型数据,如播放记录,搜索爬虫信息,用户信息等等,必须使用大数据相关系统才能存储,比如HBase/HDFS/HIVE等。传统的数据库方案不能很好处理TB以上量级的数据内容。而爱奇艺日均需处理数据量近50TB,传统的数据库方案显然支撑不住,Venus应运而生。Venus平台技术的实现是基于Spark Streaming,Flume,Kafka,Elasticsearch,Hadoop等大数据技术的二次开发应用,不是简单的部署搭配。其次,Spark在爱奇艺的应用比Storm更加广泛,在一部分业务中,Spark方案是作为MapReduce的优化和替代,将业务从MapReduce计算转移成Spark计算,计算速度可以大幅提升。另一个方面,Spark被广泛用于爱奇艺内部商业智能团队的数据挖掘和机器学习等场景下。在实时计算业务中,Spark的实时计算模块Spark Streaming也在日常业务中被广泛应用。相比Storm,Spark Streaming的吞吐量更高,这个是它的核心优势。在爱奇艺,Storm业务主要运行在Mesos集群上,Spark任务主要运行在YARN集群上。

  2.对用户行为精准画像

  爱奇艺近年在视频网站中崛起,除了“独播”之外,对用户行为的精准画像功不可没,这与大数据密切相关。叶炜晨说,爱奇艺是一家技术基因浓郁的公司,大数据部门是为公司决策层提供参考信息的核心。公司几乎各个技术部门都会使用大数据技术产品来辅助自己部门的业务。一些典型场景例如:根据用户行为,对用户进行画像,从而实现精准推荐和精准广告投放根据用户行为和百度提供的数据,预测一些版权视频未来会火的可能性,为版权视频采购提供指导性意见;根据用户行为和后台数据记录,实时统计所有业务的运营状态,计算各种业务运营报表,为市场,运营和决策层同学提供决策参考。良好的用户体验为爱奇艺赢得不少口碑。

  对数据的实时分析处理让爱奇艺可以对用户进行精准画像,从而了解用户的需求,开通个性化电影频道,为用户“私人定制”看片平台。

  互联网视频行业遇上大数据

  1、大数据带来了什么?

  今时今日,大数据已成为现代企业发展的核心资源之一,叶炜晨认为大数据从两个方面为互联网视频行业带来了可观的价值,一个是通过大数据计算的结果,为决策方提供一些辅助信息。在爱奇艺,无论是运营,市场,采购,安全风控,和各个决策部门,都在使用大数据的结果来辅助决策和判断。另一方面是通过大数据的计算,为用户提供更好的体验,如视频推荐,广告精准投放,弹幕互动等等。近年来,爱奇艺也在大数据技术上屡屡创新。更与百度大数据、第三方数据打通,推出爱奇艺大脑,并且利用HCDN等庞大的带宽储备技术,保证用户视频观看的流畅度。

  2、大数据在互联网视频行业如何应用?

  大数据在各行业蔓延,各行各业也各有千秋,大数据遇上互联网视频,会擦出什么火花呢?叶炜晨表示,互联网视频行业的大数据分析,较互联网其他行业,有很多独特之处。例如大数据分析中最基础的用户画像(判断一个用户的年龄,性别,职业,收入水平和兴趣爱好),在电商,O2O等其他互联网企业的大数据部门已经被广泛应用,然而在视频行业,对用户画像的难度远远超过电商。互联网视频行业的一个基本特点是,用户账号并非独立使用,而是普遍存在多人共用账号的情况。一个用户账号可能白天孩子在家用来看喜羊羊,晚上爸爸看二战电影,周末妈妈用来看韩国偶像剧。因此,传统电商或O2O企业使用的用户画像技术,在视频行业未必适用。对互联网视频行业的用户画像分析而言,对用户行为分析的相关算法的研究必须要更加深入,对计算实时性要求也会更高。

  写在最后

  在本届数据库技术大会上叶炜晨将带来《爱奇艺实时数据采集计算平台--Venus》,Venus是爱奇艺研发的一套实时数据的采集计算的综合解决方案。该方案专注于为公司各业务提供专业、灵活、可扩展的实时数据接入处理平台,对各类数据实时地进行汇总分析,分析结果可及时的反馈到各业务线(播放系统,搜索,CDN,会员等),用于故障排查、报警,日志分析,指标统计,智能化运营等场景,上线以来,日均处理数据量近50TB。感兴趣的小伙伴不要错过哦!

叶炜晨:视频遇上大数据,会擦出什么火花

  2016第七届中国数据库技术大会(DTCC)将于2016年5月12日-14日召开,大会云集了国内外顶尖专家,共同探讨智能数据平台、数据治理、大数据创业、大数据深度学习等领域的前瞻性热点话题与技术,为数据库人群、大数据从业人员、广大互联网人士及行业相关人士提供最具价值的交流平台。欲了解更多有关大会的精彩内容请访问DTCC 2016官网:http://dtcc.it168.com/

0
相关文章