Talend Open Studio for Big Data
Talend Open Studio for Big Data允许大家直接向Hadoop中载入文件(通过HDFS、Hive以及Sqoop等),而且无需进行手动编码。其图形化IDE所生成的原生Hadoop代码(支持YARN/MapReduce 2)能够利用Hadoop分布式环境实现大规模数据转换。
Talend的虚拟映射工具允许用户创建数据流并在无需涉及Pig的前提下加以测试。此外,项目进度安排与工作优化工具也进一步增强的工具包的功能阵容。
着手对大量数据进行整理分析的第一步,是将数据从多种来源处汇聚到Hadoop当中,而后再由Hadoop转移至其它平台。Talend Open Studio帮助大家在处理迁移流程时随心所欲,完全不必为担任复杂性而担忧。
-- James R. Borck
官方网站:http://www.talend.com/products/big-data
Apache Giraph
Apache Giraph是一套图形处理系统,专为高扩展性及高可用性需求所打造。作为谷歌Pregel的开源替代方案,Giraph已经被Facebook公司用于分析用户社交图谱及其彼此关联。这套系统采用了来自Pregel的高效整体同步并行处理模式,从而避免了MapReduce在处理图形内容时存在的固有问题。好消息是:Giraph计算进程可在大家的现有Hadoop基础设施中作为Hadoop任务运行。只要同时运行其它一些同类工具,大家就相当于获得了分布式图形处理能力。
-- Indika Kotakadeniya
官方网站:http://giraph.apache.org/
Apache Hama
与Giraph类似,Apache Hama同样将整体同步并行处理机制引入Hadoop生态系统当中,而且以Hadoop分布式文件系统作为运行基础。不过与专注于图形处理任务的Giraph不同,Hama是一套更具通行特性的框架,旨在执行大量模型与图像计算任务。它将Hadoop的良好兼容性与更为灵活的编程模式结合起来,为数据密集型科学应用提供出色的运行基础。
-- Indika Kotakadeniya
http://hama.apache.org/