技术开发 频道

用Netbeans进行开源搜索引擎Nutch的开发

【IT168 技术文档】

本文旨在介绍如何使用Netbeans进行开源搜索引擎Nutch的开发。

Nutch简介

Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。Nutch致力于让每个人能很容易, 同时花费很少就可以配置世界优秀的Web搜索引擎. 为了完成这一宏伟的目标, nutch能够做到: 每个月取几十亿网页; 为这些网页维护一个索引; 对索引文件进行每秒上千次的搜索;提供高质量的搜索结果;以最小的成本运作.

测试环境:
 Nutch release 0.9
 Netbean5.5.1 中文版
 Java 1.6
 Ubuntu 7.10

步骤:
1.安装:Nutch
•下载 Nutch 0.9 的压缩包并解压
(下载地址:http://apache.mirror.phpchina.com/lucene/nutch/)
•按照教程进行安装
(教程地址: http://wiki.apache.org/nutch/NutchTutorial)

2.在Netbeans中创建项目

•启动Netbeans5.5.1;
•创建过程:文件->新建项目->常规;
•选择“基于现有源代码的Java项目”->下一步,选择项目名称和项目文件夹,可以根据自己的需要自行指定;
•选择下一步,点击“源包文件夹”文本框右边的“添加文件夹”按钮,浏览文件目录选择Nutch安装目录下的src文件夹;
•点击完成,此时工程已经建立,当需要对项目进行配置才能实现代码的调试;
•在左边的“项目”导航窗口中,选择库包,点击右键,选择属性,此时弹出项目属性配置窗口
•选择配置“库”,点击按钮“添加JAR/文件夹”,添加Nutch安装目录下的 "conf"目录以及nutch-0.9.jar包;
•继续将Nutch安装目录下“lib”和“plugin”文件夹中的所有JAR包添加进来,此处比较麻烦,因为Netbeans不能自动扫描到文件夹下所有的JAR包,必须手工将其添加进来。
•最后需要添加两个JAR包,这两个包分别是解析MP3和RTF文档的,因为license的不兼容性,它们从代码中分离了,你可以在如下地址下载:
http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/
http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/

下载后将其分别放至src/plugin/parse-mp3/lib和src/plugin/parse-rtf/lib/目录下,同时像添加其他JAR包一样,将其添加至“编译时库”中。此时,您可以选择左方“项目”导航窗口中的项目图标,点击右键,选择“生成项目”,项目应该能正确通过编译。您还需要对Nutch进行配置以调试Nutch的爬行代码。

3.配置 Nutch

在Nutch安装目录下,找到文件/conf/nutch-defaul.xml, 将其 "plugin.folders" 属性值改为"Nutch安装目录/src/plugin"

4.在Nutch中运行Nutch爬虫

•选择左方“项目”导航窗口中的项目图标,点击右键,选择“属性”,在左方类别窗口中选择“运行”,对运行参数进行配置
•主类: 选择 org.apache.nutch.crawl.Crawl
•参数: 填入 urls -dir crawl -depth 3 -topN 50
•VM选项:填入 -Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
•点击“确定”按钮退出
•选择左方“项目”导航窗口中的项目图标,点击右键,选择“运行项目”

注:对于Ubuntu来说,可能由于权限的问题导致不能正常调试,可以在用户和组管理中设置当前用户的组为ROOT组。

0
相关文章