技术开发 频道

百度分享:超越MapReduce的实时计算模型

  【IT168 现场报道】2012年4月18日消息,由InfoQ主办的QCon大会于2012年4月18日到4月20日在北京召开。在今天下午举行的“大数据和NoSQL"分会场中,百度分布式高级研发专家杨栋发表主题演讲《Beyond MapReduce》,介绍了百度在MapReduce计算模型之外提出的实时数据流计算模型。

百度分享:超越MapReduce的实时计算模型
▲百度分布式高级研发专家杨栋

  MapReduce是一种很好的集群并行编程模型,能够满足大部分应用的需求。虽然MapReduce是分布式/并行计算方面一个很好的抽象,但它并不一定适合解决计算领域的任何问题。例如,对于那些需要实时获取计算结果的应用,像基于流量的点击付费模式的广告投放,基于实时用户行为数据分析的社交推荐,基于网页检索和点击流量的反作弊统计等等。对于这些实时应用,MapReduce并不能提供高效处理,因为处理这些应用逻辑需要执行多轮作业,或者需要将输入数据的粒度切分到很小。

百度分享:超越MapReduce的实时计算模型
▲超越MapReduce的实时数据流计算模型的需求

  如下图所示,MapReduce在数据完整性、高可用、可扩展性及收缩性方面的表现都非常出色,但是MapReduce在效率方面不能满足低延迟的需求。专有系统一般能够满足效率方面的需求,而另外四个方面的特性却往往不尽如人意,会给开发者造成一些困扰。因此需要构建新的实时计算模型,以满足应用更高的需求。

百度分享:超越MapReduce的实时计算模型
▲专有系统及MapReduce存在的问题

  杨栋表示,DStream实时计算模型就能够满足这样的需求,既能提供灵活的、可伸缩的效率解决方案,又能在数据完整性、高可用、可扩展性及收缩性方面达到领先水平。

百度分享:超越MapReduce的实时计算模型
▲DStream实时计算模型的特性

百度分享:超越MapReduce的实时计算模型
▲DStream系统架构

  欲了解更多内容,请点击IT168 QCon报道专题

0
相关文章