eclipsenutch:在Eclipse中调试运行Nutch来源: 发布时间:星期四, 2009年1月15日 浏览:34次 评论:0
昨天花了天时间都没有搞定Nutch(nutch 0.8版本)今天终于在同学提示下搞定了整理总结下这个恶心东西免得其他同志们再浪费宝贵生命 注意你遇到问题肯定都是配置问题不可能是源问题要不然nutch就肯定运行不了了通常在控制台运行nutch是没有问题至于具体运行Crawl参考:nutch 0.8 tutorial关键配置有conf下面nutch-site.xml, hadoop-site.xml其中nutch-site.xml和had-oop-site.xml里面设置分别覆盖nutch-default.xml和hadoop-default.xml里面值
1、首先参考官方网站WebSite导入操作(如果不是很熟悉话定要参考免得浪费时间)详见:RunNutchInEclipse注意按照这种方式导入时候会将所有jar都添加到path底下我个人觉得nutch-0.8.1.jar需要移除其实这个就是所有源文件打成了分发jar包 2、删除src/test源代码下面nutch-site.xml否则在运行时候会加载多个nutch-site.xml而你不修改所有nutch-site.xml话天知道它到底加载了哪个nutch开发者也是很搞笑故意在test地下放这个文件让大家犯错可是浪费哥天时间啊当然也是技术不过关了居然还是没有发现这个 3、按照官方文档运行Crawl如果运行还是没有结果话那就是要在nutch-site.xmlconfiguration下增加个http.agent.name节点: <property> <name>http.agent.name</name> <value>test</value> </property> 其实这个信息是在tutorail里面有说到 按照上面 3个步骤来做话照理来说是没有问题了 我还遇到个问题就是我在Linux服务器上只是普通用户所以运行nutch时候还会出现这么个:“没有对什么/tmp/……文件夹权限操作”最简单解决办法就是跟管理员说提升权限为root了如果这个不行话那就有个更好思路方法:修改hadoop-site如何修改呢?首先在hadoop-0.4.0-patched.jar下可以找到hadoop-default.xml打开这个文件然后将里面对应设置成/tmp/……值得属性全部拷贝出来然后将它们粘贴到hadoop-site.xml里面将值全部设成你有权限文件夹就可以了这个思路方法照理来说是可以如果还是不行话那就直接把hadoop-default.xml里面值修改掉好了具体思路方法是将该文件解压出来(不会?直接用解压管理器就好了)然后修改相应值接着再添加进去就可以覆盖掉原来 问题就这些吧记住定是配置问题在运行过程中出现问题话首先要看看哪些配置文件加载了如果好几个相同名字配置文件加载了最好把多余去掉你无法确定类加载器到底加载了那个配置 0
相关文章读者评论发表评论 |