专注于互联网--专注于架构

最新标签
网站地图
文章索引
Rss订阅

首页 »编程综合 » nutch安装:在windows中如何安装Nutch »正文

nutch安装:在windows中如何安装Nutch

来源: 发布时间:星期四, 2009年1月15日 浏览:38次 评论:0
  本来有机会接个搜索引擎项目但最终因价格问题双方谈崩为此我感到深深遗憾失去了个极好实战机会但我不想因此放弃对搜索引擎学习和实战在网上听到很多人推荐Nutch所以我打算学习下Nutch要学习Nutch还是先从安装和使用Nutch开始吧以下是我在xp sp2环境下安装Nutch过程记录

  安装Nutch需要环境

  jdk1.4.x or jdk1.5

  tomcat4.x以上

  cygwin

  软件Software下载地址:

  j2SE5.0     http://java.sun.com/javase/downloads/index.html

  Tomcat5.5   http://tomcat.apache.org/download-55.cgi

  Cygwin      http://www.cygwin.com/

  Nutch-0.7.2  http://lucene.apache.org/nutch/

  安装步骤:(具体安装目录可任意)

  1、安装JDK,我看到网上nutch支持是jdk1.4,不过我安装得是,jdk1.5为了安装tomcat5.5

   我安装路径:F:projectjavajdk5

  2、安装cygwin思路方法网上很多我推荐安装本地安装版

   我安装路径: E:Program Filescygwin

  3、安装tomcatnutch介绍说明支持tomcat 4.3我安装是tomcat5.5

   我安装路径:F:projectTomcat 5.5

  4、安装nutch-0.7.1.zip

   将下载压缩包解压缩到:F:projectnutch-0.7.2

  配置步骤:

  1、配置cygwin中环境

  E:Program Filescygwinetcprofile

  PATH="/usr/local/bin:/usr/bin:/bin:$PATH:/cygdrive/f/project/java/jdk5"

  export NUTCH_JAVA_HOME=/cygdrive/f/project/java/jdk5

  export JAVA_HOME=/cygdrive/f/project/java/jdk5

  2、配置 nutch

  1) 配置抓取过滤器确定要抓取网站WebSite地址

   打开 F:projectnutch-0.7.2confcrawl-urlfilter.txt

  # accept hosts in MY.DOMAIN.NAME

  +^http://([a-z0-9]*.)*gucas.ac.cn/

  将上面gucas.ac.cn改为你需要搜索域名

   2) 配置抓取起始网站WebSite地址

  在F:projectnutch-0.7.2中建立目录URLS目录中建立文件URLS-20060723

   文件内容:http://www.gucas.ac.cn

  3) 个性化配置

   Nutch中所有配置文件都放置在总目录下conf子文件夹中最基本配置文件是conf/nutch-default.xml这个文件中定义了Nutch所有必要设置以及些默认值它是不可以被修改如果你想进行个性化设置你需要在conf/nutch-site.xml进行设置它会对默认设置进行屏蔽

   Nutch考虑了其可扩展性你可以自定义插件plugins来定制自己服务些plugins存放于plugins子文件夹Nutch网页解析和索引功能是通过插件形式进行实现例如对HTML文件解析和索引是通过HTML document parsing plugin, parse-html实现所以你完全可以自定义各种解析插件然后对配置文件进行修改然后你就可以抓取并索引各种类型文件了   

  3、运行crawl命令抓取网站WebSite内容

   Nutch 爬虫有两种方式

  爬行企业内部网(Intranet crawling:针对少数网站WebSite进行用 crawl 命令

  爬行整个互联网:使用低层 inject, generate, fetch 和 updatedb 命令具有更强可控制性

  1) 抓取企业内部网(Intranet crawling)

   用cygwin进入F:projectnutch-0.7.2目录

   ./bin/nutch crawl ./URLS/URLS-20060723 -dir ./crawled/gucas.ac.cn -depth 2 -threads 4 >& crawl.log

   稍等几分钟抓取过程结束在你crawled子目录下将会看到抓取内容

   下面解释下该命令:

   crawl    命令有几个参数,它们是:

   -dir      指定抓取后内容及索引存放目录

   -depth   指定网站WebSite抓取层数

   -delay   指定连接目标网站WebSite延迟时间

   -threads  指定运行线程数以提高抓取速度

  在命令 ./bin/nutch crawl ./URLS/URLS-20060723 -dir ./crawled/gucas.ac.cn -depth 2 -threads 4 >& crawl.log中./URLS/URLS-20060723 是开头建立好内容是目录网址>&crawl.log是指定记录文件在抓取过程中及其它内容都会记在此文件中bin/nutch crawl部分是运行nutch安装目录下bin子目录下nutch脚本

  4、配置tomcat

   将F:projectTomcat 5.5webappsROOT目录下文件全部删除

   将F:projectnutch-0.7.2中nutch-0.7.2.war解压缩到ROOT目录中

   (可以直接使用winrar解压缩或者用命令jar xvf nutch-0.7.1.war)

   配置文件:F:projectTomcat 5.5webappsROOTWEB-INFesnutch-site.xml

<nutch-conf>
  <property>
    <name>searcher.dir</name>
    <value>F:projectnutch-0.7.2crawledgucas.ac.cn</value>
  </property>
</nutch-conf>


  在这里value标签就是指定你搜索目录这个目录也就是开头你抓取后存放抓取内容及索引目录<value>F:projectnutch-0.7.2crawledgucas.ac.cn</value>部分你可以自由修改

  接下来修改tomcatconf下server.xml文件将其中Connector部分改成如下形式即可:

  <Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
        enableLookups="false" redirectPort="8443" acceptCount="100"
        connectionTimeout="20000" disableUploadTimeout="true"
        URIEncoding="UTF-8" useBodyEncodingForURI="true" />




  这里添加了URIEncoding="UTF-8" useBodyEncodingForURI="true"语句是为了解决汉字编码问题以免在进行中文搜索时出现乱码

   重启tomcat服务器IE中输入http://localhost:8080



0

相关文章

读者评论

发表评论

  • 昵称:
  • 内容: