大数据工具类
22. Avro
Apache Avro是一种数据序列化系统,基于由JavaScript对象标注(JSON)定义的模式。提供了面向Java、C、C++和C#的应用编程接口(API)。支持的操作系统:与操作系统无关。
网址:http://avro.apache.org/
23. Chukwa
Chukwa基于Hadoop分布式文件系统(HDFS)和MapReduce而建,它可以收集来自大型分布式系统的数据。它还包括用于显示和分析它所收集的数据的工具。支持的操作系统:Linux和OS X。
网址:http://incubator.apache.org/chukwa/
24. Flume
Flume是另一个Apache项目,可以收集和汇集来自应用程序的日志数据,并将这些数据传送到HDFS。它基于Java,具有健壮性和容错性。支持的操作系统:Windows、Linux和OS X。
网址:https://cwiki.apache.org/FLUME/
25. GridGain
这个非主流的Hadoop MapReduce是一种基于Java的开源平台,可用于实时处理大数据。它有社区版、企业版和OEM版,但只有付费版才有"云启动"(CloudBoot)功能。支持的操作系统:Windows、Linux和OS X。
网址:http://www.gridgain.com/
26. Hadoop
Apache的Hadoop项目提供了分布式处理超大数据集的功能,在运作云计算环境的企业机构当中颇受欢迎。知名用户包括:雅虎、亚马逊、电子港湾、美国在线(AOL)、Facebook、谷歌、Hulu、Spotify及另外许多公司。支持的操作系统:Windows、Linux和OS X。
网址:http://hadoop.apache.org/
27. HPCC
HPCC由律商联讯集团风险解决方案公司(LexisNexis Risk Solutions)开发,其全称是"高性能计算集群"。它声称可以为Hadoop提供出色的性能。免费社区版和付费企业版都有提供。支持的操作系统:Linux。
网址:http://hpccsystems.com/
28. Lucene
Lucene自诩为"搜索库领域事实上的标准",它为超大数据集提供了非常快的检索和搜索速度。实际上,它在使用现代化硬件时检索速度超过每小时95GB。支持的操作系统:与操作系统无关。
网址:http://lucene.apache.org/core/
29. MapReduce
MapReduce最初由谷歌开发,其网站声称这是"一种编程模型和软件框架,用于编写可在庞大的计算节点集群上迅速地并行处理海量数据的应用程序。"使用它的除了其他许多数据处理应用系统外,还有Hadoop。支持的操作系统:与操作系统无关。
网址:http://hadoop.apache.org/mapreduce/
30. Oozie
这个Apache项目旨在协调Hadoop作业的调度。它可以在预定时间或根据数据的可用性来触发作业。支持的操作系统:Linux和OS X。
网址:http://incubator.apache.org/oozie/
31. Solr
Solr是基于Lucene工具的一种企业搜索平台。它支撑许多大型网站的搜索功能,包括Netflix、AOL、CNET和Zappos。支持的操作系统:与操作系统无关。
网址:http://lucene.apache.org/solr/
32. Sqoop
Sqoop可以在Hadoop与关系数据库管理系统(RDBMS)以及数据仓库之间传送数据。截至去年3月份,它已是Apache的优异项目。支持的操作系统:与操作系统无关。
网址:http://sqoop.apache.org/
33. Storm
Storm现在归推特所有,它提供了分布式实时计算功能,常常被称为是"实时版Hadoop"。它具有极高的扩展性、健壮性和容错性,可以与几乎所有编程语言协同运行。支持的操作系统:Linux。
网址:https://github.com/nathanmarz/storm#readme