Rss订阅

首页 »编程综合 » nutch安装:在windows中如何安装Nutch »正文

nutch安装:在windows中如何安装Nutch

来源: 发布时间:星期四, 2009年1月15日浏览:38次评论:0

　　本来有机会接

个搜索引擎项目

但最终因价格问题双方谈崩

为此

我感到深深

遗憾

失去了

个极好

实战机会

但我不想因此放弃对搜索引擎

学习和实战

在网上听到很多人推荐Nutch

所以我打算学习

下Nutch

要学习Nutch

还是先从安装和使用Nutch开始吧

以下是我在xp sp2环境下安装Nutch

过程记录

　　安装Nutch需要

环境

　　jdk1.4.x or jdk1.5

　　tomcat4.x以上

　　cygwin

　　软件Software下载地址:

　　j2SE5.0　　　　　http://java.sun.com/javase/downloads/index.html

　　Tomcat5.5　　　http://tomcat.apache.org/download-55.cgi

　　Cygwin　　　　　 http://www.cygwin.com/

　　Nutch-0.7.2　　http://lucene.apache.org/nutch/

　　安装步骤:(具体

安装目录可任意)

　　1、安装JDK,我看到网上nutch支持

是jdk1.4,不过我安装得是,jdk1.5

为了安装tomcat5.5

　　我

安装路径:F:projectjavajdk5

　　2、安装cygwin

思路方法网上很多

我推荐安装本地安装版

　　我

安装路径: E:Program Filescygwin

　　3、安装tomcat

nutch

介绍说明支持tomcat 4.3

我安装

是tomcat5.5

　　我

安装路径:F:projectTomcat 5.5

　　4、安装nutch-0.7.1.zip

　　将下载

压缩包解压缩到:F:projectnutch-0.7.2

　　配置步骤:

　　1、配置cygwin中

环境

　　E:Program Filescygwinetcprofile

　　PATH="/usr/local/bin:/usr/bin:/bin:$PATH:/cygdrive/f/project/java/jdk5"

　　export NUTCH_JAVA_HOME=/cygdrive/f/project/java/jdk5

　　export JAVA_HOME=/cygdrive/f/project/java/jdk5

　　2、配置 nutch

　　1) 配置抓取过滤器

确定要抓取

网站WebSite地址

　　打开 F:projectnutch-0.7.2confcrawl-urlfilter.txt

　　# accept hosts in MY.DOMAIN.NAME

　　+^http://([a-z0-9]*.)*gucas.ac.cn/

　　将上面

gucas.ac.cn改为你需要搜索

域名

　　 2) 配置抓取

起始网站WebSite地址

　　在F:projectnutch-0.7.2中建立目录URLS

目录中建立文件URLS-20060723

　　文件内容:http://www.gucas.ac.cn

　　3) 个性化配置

　　 Nutch中

所有配置文件都放置在总目录下

conf子文件夹中

最基本

配置文件是conf/nutch-default.xml

这个文件中定义了Nutch

所有必要设置以及

些默认值

它是不可以被修改

如果你想进行个性化设置

你需要在conf/nutch-site.xml进行设置

它会对默认设置进行屏蔽

　　 Nutch考虑了其可扩展性

你可以自定义插件plugins来定制自己

服务

些plugins存放于plugins子文件夹

Nutch

网页解析和索引功能是通过插件形式进行实现

例如

对HTML文件

解析和索引是通过HTML document parsing plugin, parse-html实现

所以你完全可以自定义各种解析插件然后对配置文件进行修改

然后你就可以抓取并索引各种类型

文件了

　　　

　　3、运行crawl命令抓取网站WebSite内容

　　 Nutch

爬虫有两种方式

　　爬行企业内部网(Intranet crawling:针对少数网站WebSite进行

用 crawl 命令

　　爬行整个互联网:使用低层

inject, generate, fetch 和 updatedb 命令

具有更强

可控制性

　　1) 抓取企业内部网(Intranet crawling)

　　用cygwin进入F:projectnutch-0.7.2目录

　　 ./bin/nutch crawl ./URLS/URLS-20060723 -dir ./crawled/gucas.ac.cn -depth 2 -threads 4 >& crawl.log

　　稍等几分钟

抓取过程结束

在你

crawled子目录下

将会看到抓取

内容

　　下面解释下该命令:

　　 crawl　　　　命令有几个参数,它们是:

　　 -dir　　　　　指定抓取后内容及索引

存放目录

　　 -depth　　指定网站WebSite抓取

层数

　　 -delay　　　指定连接目标网站WebSite延迟时间

　　 -threads　指定

运行

线程数

以提高抓取速度

　　在命令 ./bin/nutch crawl ./URLS/URLS-20060723 -dir ./crawled/gucas.ac.cn -depth 2 -threads 4 >& crawl.log中./URLS/URLS-20060723 是开头建立好

内容是目录网址

>&crawl.log是指定记录文件

在抓取过程中

及其它内容都会记在此文件中

bin/nutch crawl部分是运行nutch安装目录下

bin子目录下

nutch脚本

　　4、配置tomcat

　　将F:projectTomcat 5.5webappsROOT目录下文件全部删除

　　将F:projectnutch-0.7.2中nutch-0.7.2.war解压缩到ROOT目录中

　　 (可以直接使用winrar解压缩

或者用命令jar xvf nutch-0.7.1.war)

　　配置文件:F:projectTomcat 5.5webappsROOTWEB-INF

esnutch-site.xml

<nutch-conf>
　　<property>
　　　　<name>searcher.dir</name>
　　　　<value>F:projectnutch-0.7.2crawledgucas.ac.cn</value>
　　</property>
</nutch-conf>

　　在这里value标签就是指定你搜索

这个目录

也就是开头你抓取后存放抓取内容及索引

<value>F:projectnutch-0.7.2crawledgucas.ac.cn</value>部分

你可以自由修改

　　接下来修改tomcatconf下

server.xml文件

将其中

Connector部分改成如下形式即可:

　　<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
　　　　　　　 enableLookups="false" redirectPort="8443" acceptCount="100"
　　　　　　　 connectionTimeout="20000" disableUploadTimeout="true"
　　　　　　　 URIEncoding="UTF-8" useBodyEncodingForURI="true" />

　　这里添加了URIEncoding="UTF-8" useBodyEncodingForURI="true"语句

目

是为了解决汉字编码问题

以免在进行中文搜索时

出现乱码

　　重启tomcat服务器

IE中输入http://localhost:8080

标签：eclipsenutch lucenenutch nutch nutch安装

下载文章的 PDF文档电子版离线看

我顶

专注于互联网--专注于架构

首页 »编程综合 » nutch安装:在windows中如何安装Nutch »正文

nutch安装:在windows中如何安装Nutch

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章