专注于互联网--专注于架构

最新标签
网站地图
文章索引
Rss订阅

首页 »编程综合 » eclipsenutch:在Eclipse中调试运行Nutch »正文

eclipsenutch:在Eclipse中调试运行Nutch

来源: 发布时间:星期四, 2009年1月15日 浏览:34次 评论:0
   昨天花了天时间都没有搞定Nutch(nutch 0.8版本)今天终于在同学提示下搞定了整理总结下这个恶心东西免得其他同志们再浪费宝贵生命   注意你遇到问题肯定都是配置问题不可能是源问题要不然nutch就肯定运行不了了通常在控制台运行nutch是没有问题至于具体运行Crawl参考:nutch 0.8 tutorial关键配置有conf下面nutch-site.xml, hadoop-site.xml其中nutch-site.xml和had-oop-site.xml里面设置分别覆盖nutch-default.xml和hadoop-default.xml里面

  1、首先参考官方网站WebSite导入操作(如果不是很熟悉定要参考免得浪费时间)详见:RunNutchInEclipse注意按照这种方式导入时候会将所有jar都添加到path底下我个人觉得nutch-0.8.1.jar需要移除其实这个就是所有源文件打成了分发jar包

  2、删除src/test源代码下面nutch-site.xml否则在运行时候会加载多个nutch-site.xml而你不修改所有nutch-site.xml天知道它到底加载了哪nutch开发者也是很搞笑故意在test地下放这个文件让大家犯错可是浪费哥时间啊当然也是技术不过关了居然还是没有发现这个

  3、按照官方文档运行Crawl如果运行还是没有结果那就是要在nutch-site.xmlconfiguration下增加个http.agent.name节点:

  <property>

  <name>http.agent.name</name>

  <value>test</value>

  </property>

  其实这个信息是在tutorail里面有说到

  按照上面 3个步骤来做话照理来说是没有问题了

  我还遇到个问题就是我在Linux服务器上只是普通用户所以运行nutch时候还会出现这么:“没有对什么/tmp/……文件夹权限操作”最简单解决办法就是跟管理员说提升权限为root了如果这个不行那就有个更好思路方法:修改hadoop-site如何修改呢?首先在hadoop-0.4.0-patched.jar下可以找到hadoop-default.xml打开这个文件然后将里面对应设置成/tmp/……值得属性全部拷贝出来然后将它们粘贴到hadoop-site.xml里面将值全部设成你有权限文件夹就可以了这个思路方法照理来说是可以如果还是不行那就直接把hadoop-default.xml里面值修改掉好了具体思路方法是将该文件解压出来(不会?直接用解压管理器就好了)然后修改相应接着再添加进去就可以覆盖掉原来

  问题就这些吧记住定是配置问题在运行过程中出现问题首先要看看哪些配置文件加载了如果好几个相同名字配置文件加载了最好把多余去掉你无法确定类加载器到底加载了那个配置

0

相关文章

读者评论

发表评论

  • 昵称:
  • 内容: