DTCC2016：叶炜晨分享实时采集计算-技术开发专区

DTCC2016：叶炜晨分享实时采集计算

作者：zyy 编辑：覃里 2016-05-12 18:55 IT168网站原创

　　【IT168 专稿】2016年5月12日，第七届中国数据库技术大会(DTCC 2016)在北京国际会议中心拉开帷幕。作为国内数据库与大数据领域最大规模的技术盛宴，在为期三天的会议中，大会将围绕MySQL、NoSQL、Oracle、缓存技术、云端数据库、智能数据平台、大数据安全、数据治理、大数据和开源、大数据创业、大数据深度学习等领域的前瞻性热点话题与技术展开深入探讨，并邀请一大批国内顶尖的技术专家来进行分享，以满足广大从业人士和行业用户的迫切需要。

　　大数据时代，数据源以日志源为主。随着日志量的不断增加，脚本计算显然效率太低，跟不上时代的脚步。日志打出来就是为了企业进行数据分析的，在集群的场景下，对日志的收集处理变成了一个绕不过的难题，传统日志处理手段已经不能处理集群上的日志。这就对实时计算提出了新的需求。今天下午专场四《实时计算与流计算》嘉宾叶炜晨从需求入手，讲解了爱奇艺实时采集计算平台的功能架构。

DTCC2016：叶祎晨分享实时采集计算

　　叶炜晨表示互联网公司的日志处理需求大致分为三类：快速故障定位，实时统计分析，实时日志报警。他表示，在爱奇艺，Venus平台接入的数据范围涵盖播放、存储、生产、安全风控等多个领域。日志采集覆盖机器超过千台，峰值支撑日志流量超过百万条每秒。在这种情况下，爱奇艺搭建了如下的实时计算采集平台。

DTCC2016：叶祎晨分享实时采集计算

　　客户端Agent选型

　　爱奇艺实时计算技术的两大技术创新之一。Agent是基于Apache Flume 1.6.0 改造开发的，其使用 Java源码更灵活，易于二次改造;Kafka，Spark等集成良好。他表示，Flume极其灵活，容易二次改造，自带大数据基因与其他组件集成良好。

　　实时计算引擎选型---Spark Streaming

　　Spark Streaming：基于Apache Spark的流式计算引擎。其吞吐量大；受Yarn调度，接受Resource Manager管理；Spark Streaming on Yarn稳定性更优(相比Storm);Streaming SQL支持。爱奇艺对其进行了SQL封装。叶炜晨表示，对于技术人员来说，看到spark代码和看到java代码一样亲切，这可能也是其选用Spark Streaming的一个重要原因。

　　其他平台应用技术

　　缓冲池选型上，爱奇艺选用了大吞吐，高容错，高稳定性的开源分布式消息系统-----Apache Kafka。实时查询检索引擎选型上，爱奇艺选用了基于Lucene的搜索引擎，实时性好，分布式可扩展，版本迭代快，商业公司维护的Elasticsearch。

　　最后叶炜晨表示实时日志的分析是非常有意义的，大量的集群服务使得实施日志的报警，实时计算的日志化，实时计算的资源弹性化显得意义重大。

▲更多大会资讯，请查看大会专题：http://www.it168.com/redian/16DTCC/

关注我们