技术开发 频道

DTCC2016:叶炜晨分享实时采集计算

  【IT168 专稿】2016年5月12日,第七届中国数据库技术大会(DTCC 2016)在北京国际会议中心拉开帷幕。作为国内数据库与大数据领域最大规模的技术盛宴,在为期三天的会议中,大会将围绕MySQL、NoSQL、Oracle、缓存技术、云端数据库、智能数据平台、大数据安全、数据治理、大数据和开源、大数据创业、大数据深度学习等领域的前瞻性热点话题与技术展开深入探讨,并邀请一大批国内顶尖的技术专家来进行分享,以满足广大从业人士和行业用户的迫切需要。

  大数据时代,数据源以日志源为主。随着日志量的不断增加,脚本计算显然效率太低,跟不上时代的脚步。日志打出来就是为了企业进行数据分析的,在集群的场景下,对日志的收集处理变成了一个绕不过的难题,传统日志处理手段已经不能处理集群上的日志。这就对实时计算提出了新的需求。今天下午专场四《实时计算与流计算》嘉宾叶炜晨从需求入手,讲解了爱奇艺实时采集计算平台的功能架构。 

 DTCC2016:叶祎晨分享实时采集计算

  叶炜晨表示互联网公司的日志处理需求大致分为三类:快速故障定位,实时统计分析,实时日志报警。他表示,在爱奇艺,Venus平台接入的数据范围涵盖播放、存储、生产、安全风控等多个领域。日志采集覆盖机器超过千台,峰值支撑日志流量超过百万条每秒。在这种情况下,爱奇艺搭建了如下的实时计算采集平台。

  DTCC2016:叶祎晨分享实时采集计算

  客户端Agent选型

  爱奇艺实时计算技术的两大技术创新之一。Agent是基于Apache Flume 1.6.0 改造开发的,其使用 Java源码更灵活,易于二次改造;Kafka,Spark等集成良好。他表示,Flume极其灵活,容易二次改造,自带大数据基因与其他组件集成良好。

  实时计算引擎选型---Spark Streaming

  Spark Streaming:基于Apache Spark的流式计算引擎。其吞吐量大;受Yarn调度,接受Resource Manager管理;Spark Streaming on Yarn稳定性更优(相比Storm);Streaming SQL支持。爱奇艺对其进行了SQL封装。叶炜晨表示,对于技术人员来说,看到spark代码和看到java代码一样亲切,这可能也是其选用Spark Streaming的一个重要原因。

  其他平台应用技术

  缓冲池选型上,爱奇艺选用了大吞吐,高容错,高稳定性的开源分布式消息系统-----Apache Kafka。实时查询检索引擎选型上,爱奇艺选用了基于Lucene的搜索引擎,实时性好,分布式可扩展,版本迭代快,商业公司维护的Elasticsearch。

  最后叶炜晨表示实时日志的分析是非常有意义的,大量的集群服务使得实施日志的报警,实时计算的日志化,实时计算的资源弹性化显得意义重大。

DTCC2016:叶炜晨分享实时采集计算
更多大会资讯,请查看大会专题:http://www.it168.com/redian/16DTCC/

0
相关文章