最近工作中遇到瓶颈,主要是没有很好的理解nutch从而使之效率低下,现在要对nutch进行优化,以后也会记录下在学习nutch的时候所遇到的问题。首先x point org.apache.nutch.net.URLNormalizer not found. 这是在运行nutch的时候报出的异常。我们可以发现和URLNormalizer这个有关,URLNormalizer是nutch在inject的时候对url进行规范化的东西,它是通过插件完成的,因此我认为是插件存在问题,后来仔细排查发现在nutch-default.xml中plugin.folders参数路径设置错误,由原来的lib/plugin改为plugin后运行正常。也有可能是配置文件的问题。
1. JAVA_HOME环境变量未设置
2. 未在conf/crawl-urlfilter.txt中设定过滤信息
3. Fetcher: No agents listed in 'http.agent.name' property.
原因:没有修改nutch-site.xml
4. 没有fetch到任何网页
原因:conf/crawl-urlfilter.txt中url匹配字符串(*.TARGET.COM)与urls中大小写不一致
调试时遇到的问题:
1. javax.login.LoginException。原因是nutch引用cygwin。必须把c:\cygwin\bin添加到path环境变量
2. OutOfMemoryException。需要在eclipse中设置VM内存大小。在debug configuration中的vm arguments中设置 -Xmx768m
3. plugin.folders没有设置java.lang.IllegalArgumentException: plugin.folders is not set:将conf加入源程序目录
4. java.lang.RuntimeException: x point org.apache.nutch.net.URLNormalizer not found.
原因:crawl-urlfilter.txt中的正则表达式nutch不接受
5. java.lang.IllegalArgumentException:Fetcher: No agents listed in 'http.agent.name‘
原因:nutch-default.xml中http.agent.name为空
解决:
分享到:
相关推荐
apache-nutch-2.3.1-src.tar.gz
nutch2.1导入Eclipse过程中,import org.restlet.×;错误,缺少的包。
nutch不用安装,是个应用程序,下载后为nutch-1.6.tar.gz,双击桌面上的cygwin快捷方式;执行以下命令: $ cd D:/Downloads/Soft $ tar zxvf nutch-1.0.tar.gz 在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境...
apache-nutch-1.3 的源码包,需要的可以看下
apache-nutch-1.6-src.tar.gz 来自APACHE官网,本人亲自测试可以使用。
Nutch是一款刚刚诞生的完整的开源搜索引擎系统,可以结合数据库进行索引,能快速构建所需系统。Nutch 是基于Lucene的,Lucene为 Nutch 提供了文本索引和搜索的API,所以它使用Lucene作为索引和检索的模块。Nutch的...
Nutch 是一个开源Java 实现的搜索引擎。这里是它的安装包。
这是本人在完全分布式环境下在Cent-OS中配置Nutch-1.1时的总结文档,但该文档适合所有Linux系统和目前各版本的nutch。 目 录 介绍 ............................................................... 2 0 集群...
apache-nutch-1.4-bin.tar.gz.part2
nutch配置nutch-default.xml
nutch2.1导入Eclipse过程中,import org.restlet.×;错误,缺少的包。
1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置........
apache-nutch-1.4-bin.tar.gz.part1
1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. ...
nutch2.2.1安装步骤,需要自己下载以下软件: apache-ant-1.10.5-bin.tar.gz apache-nutch-2.2.1-src.tar.gz apache-tomcat-8.5.39.tar.gz jdk-8u201-linux-x64.tar.gz solr-4.10.3.zip
Apache Nutch网络爬虫 v1.19.zip
一个开源Java 实现的搜索引擎nutch
nutch1.8最新版2014.6.10part2
apache-nutch-2.3-src.zip来自APACHE官方网站,亲自测试可以使用。
apache-nutch-1.4-bin.part2