技术开发 频道

2013 Bossie评选:非常好的开源大数据工具

2013 Bossie评选:非常好的开源大数据工具

  Cloudera Impala

  Cloudera Impala在实时SQL查询中的意义,可以等同于MapReduce在批量处理领域的重要作用。Impala引擎位于Hadoop集群的每一个数据节点当中,从而灵活地侦听查询请求。经过对查询的分析之后,它会通过优化生成一套执行规划,并在集群中的计算节点之间负责并行处理的协调工作。通过上述努力,Impala为用户在Haoop环境下带来更低的SQL查询延迟,并以接近实时的状态对大数据加以理解。

  由于Impala也能直接使用大家的原生Hadoop基础设施(例如HDFS、HBase以及Hive元数据),多方配合将构成一整统一平台,用户可以在不涉及连接器复杂性、ETL或者昂贵数据仓库等机制的前提下实现全面数据分析。此外,Impala可以从任何ODBC/JDBC源处轻松获取,所以能够成为Pentaho等商务智能工具包中的理想组件。

  -- James R. Borck

  官方网站:http://www.cloudera.com/content/cloudera/en/home.html

2013 Bossie评选:非常好的开源大数据工具

  Serengeti

  作为VMware将虚拟化带入大数据处理领域的重要项目,Serengeti允许大家将Hadoop集群以动态方式运行在共享式服务器基础设施当中。该项目利用Apache Hadoop虚拟化扩展——由VMware开发并贡献——从而使Hadoop成功步入虚拟化环境。

  在Serengeti的帮助下,我们可以在几分钟之内完成Hadoop集群环境部署,且不必涉及节点布局、HA状态或者作业调度等令人头痛的配置选项。进一步讲,通过在每台主机内的多套虚拟机系统中部署Hadoop,Serengeti能够将数据及计算功能加以划分,并在维护本地数据存储的同时改进计算规模。

  -- James R. Borck

  官方网站:http://projectserengeti.org/

2013 Bossie评选:非常好的开源大数据工具

  Apache Drill

  Apache Drill的设计灵感源自谷歌Dremel系统,旨在为大规模数据集带来极低的交互分析延迟。Drill支持多种数据来源,包括HBase、Cassandra、MongoDB以及传统关系数据库。Hadoop虽然能为我们带来可观的数据吞吐能力,但分析其中的内容则要花费数分钟甚至数小时时间。在Drill的帮助下,大家将拥有理想的响应速度,从而实现交互式操作;这样一来,快速分析并获取有价值结论将变得轻松而愉快。

  -- Steven Nuñez

  官方网站:http://incubator.apache.org/drill/

2013 Bossie评选:非常好的开源大数据工具

  Gephi

  图形理论已经全面延伸到应用程序的各个领域。我们可以利用链式分析调查相关贸易商与员工,从而揪出可疑的交易活动。一旦明晰系统内关键性连接点的状况,我们就能以直观方式审视复杂的IT环境。在多位专家、企业联合组织的开发活动中,Gephi作为一款可视性发现工具,能够支持多种图形类型以及高达百万级别的网络节点规模。大家可以从维基、论坛以及各类教学网站上找到丰富的指导性资料,活跃的技术社区也为我们带来层出不穷的插件选项——总而言之,大家在使用Gephi的过程中很可能无需从零做起。

  -- Steven Nuñez

1
相关文章