Nutch报错怎么办
发表于:2025-02-23 作者:千家信息网编辑
千家信息网最后更新 2025年02月23日,这篇文章主要介绍了Nutch报错怎么办,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。Indexer: java.io.IOExcept
千家信息网最后更新 2025年02月23日Nutch报错怎么办
这篇文章主要介绍了Nutch报错怎么办,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。
Indexer: java.io.IOException: Job failed!
环境:nutch2.8 local模式 solr服务正常
ParseSegment: finished at 2014-07-14 21:21:19, elapsed: 00:00:35CrawlDB updateCrawlDb update: starting at 2014-07-14 21:21:21CrawlDb update: db: crawl/crawldbCrawlDb update: segments: [crawl/segments/20140714190910]CrawlDb update: additions allowed: trueCrawlDb update: URL normalizing: falseCrawlDb update: URL filtering: falseCrawlDb update: 404 purging: falseCrawlDb update: Merging segment data into db.CrawlDb update: finished at 2014-07-14 21:21:30, elapsed: 00:00:09Link inversionLinkDb: starting at 2014-07-14 21:21:33LinkDb: linkdb: crawl/linkdbLinkDb: URL normalize: trueLinkDb: URL filter: trueLinkDb: internal links will be ignored.LinkDb: adding segment: crawl/segments/20140714190910LinkDb: merging with existing linkdb: crawl/linkdbLinkDb: finished at 2014-07-14 21:21:42, elapsed: 00:00:09Dedup on crawldbIndexing 20140714190910 on SOLR index -> http://192.168.122.104:8080/solrIndexer: starting at 2014-07-14 21:21:55Indexer: deleting gone documents: falseIndexer: URL filtering: falseIndexer: URL normalizing: falseActive IndexWriters :SOLRIndexWriter solr.server.url : URL of the SOLR instance (mandatory) solr.commit.size : buffer size when sending to SOLR (default 1000) solr.mapping.file : name of the mapping file for fields (default solrindex-mapping.xml) solr.auth : use authentication (default false) solr.auth.username : use authentication (default false) solr.auth : username for authentication solr.auth.password : password for authenticationIndexer: java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357) at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:114) at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:176) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:186)
解决方法:
1、查看nutch日志发现是nutch在向solr请求的时候有Bad Request导致的
2、查看solr日志(在solr的web页面上的logging)中查看找到org.apache.solr.common.SolrException: ERROR: [doc=http://18.ifeng.com/] unknown field 'anchor'
3、从2中可以看出是缺少叫做'anchor'的field,那么在solr的solr/collection1/conf/schema.xml文件中增加'anchor'字段
No agents listed in 'http.agent.name' property
原因:$NUTCH_HOME/conf/nutch-site.xml中没有设置http.agent.name值,nutch较新版本(TODO:确切版本待考证)中这个值为空的话就会报这个错误。
解决:这个值其实就是User-Agent值,可以填写浏览器UA值以达到伪装成浏览器访问的目的。注意!填写后需使用ant重新编译才能生效。
感谢你能够认真阅读完这篇文章,希望小编分享的"Nutch报错怎么办"这篇文章对大家有帮助,同时也希望大家多多支持,关注行业资讯频道,更多相关知识等着你来学习!
篇文章
怎么办
日志
浏览器
浏览
价值
兴趣
原因
同时
字段
就是
文件
方法
时候
更多
朋友
模式
版本
环境
目的
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
中兴软件开发有调薪码
网络安全股票龙头股2020
bim数据库建议
华为服务器浙江
医疗的网络安全信息化
中专网络技术基础第一二章
一刀砍爆王者服务器的英雄
成都星艺灵互联网科技有限公司
网络安全宣传大学生模板
pos机服务器出错是什么意思
微软软件开发及笔记本
tp3.2存入数据库
天之旭网络技术有限公司
数据库三级模式结构有哪些
卡1无法连接到服务器
数据库一般用什么区分同名作者
网络安全周宣传策划
边缘网络安全概念股
数据库 视图与表的关系
上海家用软件开发要多少钱
互联网科技的宣传语
成都英诺森互联网科技有限公司
理解开源软件开发过程
数据库连接失败 织梦
pos机服务器出错是什么意思
计算机网络技术属于什么职业
破译交易数据库来实现盈利
暑期网络安全图片
数据库 对电脑什么要求高
网络安全集成项目建设原则