nutch安装:在windows中如何安装Nutch来源: 发布时间:星期四, 2009年1月15日 浏览:38次 评论:0
本来有机会接个搜索引擎项目但最终因价格问题双方谈崩为此我感到深深遗憾失去了个极好实战机会但我不想因此放弃对搜索引擎学习和实战在网上听到很多人推荐Nutch所以我打算学习下Nutch要学习Nutch还是先从安装和使用Nutch开始吧以下是我在xp sp2环境下安装Nutch过程记录
安装Nutch需要环境 jdk1.4.x or jdk1.5 tomcat4.x以上 cygwin 软件Software下载地址: j2SE5.0 http://java.sun.com/javase/downloads/index.html Tomcat5.5 http://tomcat.apache.org/download-55.cgi Cygwin http://www.cygwin.com/ Nutch-0.7.2 http://lucene.apache.org/nutch/ 安装步骤:(具体安装目录可任意) 1、安装JDK,我看到网上nutch支持是jdk1.4,不过我安装得是,jdk1.5为了安装tomcat5.5 我安装路径:F:projectjavajdk5 2、安装cygwin思路方法网上很多我推荐安装本地安装版 我安装路径: E:Program Filescygwin 3、安装tomcatnutch介绍说明支持tomcat 4.3我安装是tomcat5.5 我安装路径:F:projectTomcat 5.5 4、安装nutch-0.7.1.zip 将下载压缩包解压缩到:F:projectnutch-0.7.2 配置步骤: 1、配置cygwin中环境 E:Program Filescygwinetcprofile PATH="/usr/local/bin:/usr/bin:/bin:$PATH:/cygdrive/f/project/java/jdk5" export NUTCH_JAVA_HOME=/cygdrive/f/project/java/jdk5 export JAVA_HOME=/cygdrive/f/project/java/jdk5 2、配置 nutch 1) 配置抓取过滤器确定要抓取网站WebSite地址 打开 F:projectnutch-0.7.2confcrawl-urlfilter.txt # accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*.)*gucas.ac.cn/ 将上面gucas.ac.cn改为你需要搜索域名 2) 配置抓取起始网站WebSite地址 在F:projectnutch-0.7.2中建立目录URLS目录中建立文件URLS-20060723 文件内容:http://www.gucas.ac.cn 3) 个性化配置 Nutch中所有配置文件都放置在总目录下conf子文件夹中最基本配置文件是conf/nutch-default.xml这个文件中定义了Nutch所有必要设置以及些默认值它是不可以被修改如果你想进行个性化设置你需要在conf/nutch-site.xml进行设置它会对默认设置进行屏蔽 Nutch考虑了其可扩展性你可以自定义插件plugins来定制自己服务些plugins存放于plugins子文件夹Nutch网页解析和索引功能是通过插件形式进行实现例如对HTML文件解析和索引是通过HTML document parsing plugin, parse-html实现所以你完全可以自定义各种解析插件然后对配置文件进行修改然后你就可以抓取并索引各种类型文件了 3、运行crawl命令抓取网站WebSite内容 Nutch 爬虫有两种方式 爬行企业内部网(Intranet crawling:针对少数网站WebSite进行用 crawl 命令 爬行整个互联网:使用低层 inject, generate, fetch 和 updatedb 命令具有更强可控制性 1) 抓取企业内部网(Intranet crawling) 用cygwin进入F:projectnutch-0.7.2目录 ./bin/nutch crawl ./URLS/URLS-20060723 -dir ./crawled/gucas.ac.cn -depth 2 -threads 4 >& crawl.log 稍等几分钟抓取过程结束在你crawled子目录下将会看到抓取内容 下面解释下该命令: crawl 命令有几个参数,它们是: -dir 指定抓取后内容及索引存放目录 -depth 指定网站WebSite抓取层数 -delay 指定连接目标网站WebSite延迟时间 -threads 指定运行线程数以提高抓取速度 在命令 ./bin/nutch crawl ./URLS/URLS-20060723 -dir ./crawled/gucas.ac.cn -depth 2 -threads 4 >& crawl.log中./URLS/URLS-20060723 是开头建立好内容是目录网址>&crawl.log是指定记录文件在抓取过程中及其它内容都会记在此文件中bin/nutch crawl部分是运行nutch安装目录下bin子目录下nutch脚本 4、配置tomcat 将F:projectTomcat 5.5webappsROOT目录下文件全部删除 将F:projectnutch-0.7.2中nutch-0.7.2.war解压缩到ROOT目录中 (可以直接使用winrar解压缩或者用命令jar xvf nutch-0.7.1.war) 配置文件:F:projectTomcat 5.5webappsROOTWEB-INFesnutch-site.xml <nutch-conf> 在这里value标签就是指定你搜索目录这个目录也就是开头你抓取后存放抓取内容及索引目录<value>F:projectnutch-0.7.2crawledgucas.ac.cn</value>部分你可以自由修改 接下来修改tomcatconf下server.xml文件将其中Connector部分改成如下形式即可: <Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" 这里添加了URIEncoding="UTF-8" useBodyEncodingForURI="true"语句目是为了解决汉字编码问题以免在进行中文搜索时出现乱码 重启tomcat服务器IE中输入http://localhost:8080 0
相关文章读者评论发表评论 |