技术开发 频道

Facebook用Corona提升Hadoop的可伸缩性

        【IT168 资讯】Facebook已经开源了Corona,这是一款内部开发的用以改善Hadoop MapReduce调度的软件。

  Corona将集群管理和作业跟踪这两个关键任务分开。这与Apache YARN在概念上不谋而合,YARN也是MapReduce调度器和资源管理器的一个改进版本。Facebook的工程团队发表了一篇文章来解释Corna及其背景。他们同时也解释了为什么没有采用YARN——

  “值得注意的是,我们曾经考虑过将Apache YARN作为Corona的一种替代方案。然而,在调研了YARN在我们的HDFS版本(由于我们海量的PB级数据存储而产生的强烈需求)上的使用情况后,我们发现了很多不兼容问题,修复的时间成本过高,而且存在风险。此外,YARN能否适应Facebook规模的负载也是个未知数。”

  Facebook的Hadoop版本一个主要不同是AvatarNode,它会为集群中的每个结点创建一个热备份。这就创建了高可用的NameNode,甚至允许非停机条件下进行软件升级。Facebook的数据仓库当前需要处理成百上千PB数据,而且每天还要新增0.5PB ,这对他们是非常关键的。

  Corona当前能够运行MapReduce作业,但Facebook打算将其用于来自其他类型应用(比如Peregrine)的调度作业。

  Apache Hadoop是一组支持大规模分布式计算的项目集。

  查看英文原文:Corona Improves Hadoop Scalability At Facebook

0
相关文章