千家信息网

nutch+hadoop如何配置

发表于:2025-01-20 作者:千家信息网编辑
千家信息网最后更新 2025年01月20日,这篇文章给大家分享的是有关nutch+hadoop如何配置的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。nutch+hadoop配置使用配置nutch+hadoop1,下载
千家信息网最后更新 2025年01月20日nutch+hadoop如何配置

这篇文章给大家分享的是有关nutch+hadoop如何配置的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

nutch+hadoop配置使用

配置nutch+hadoop

1,下载nutch。如果不需要特别开发hadoop,则不需要下载hadoop。因为nutch里面带了hadoopcore包以及相关配置

2,建立目录(根据自己喜好)
/nutch
/search(nutchinstallationgoeshere)nutch安装到这里,也就是解压到这里
/filesystemhadoop的文件系统存放点
/local/crawl后放置索引用来search用的
/home(nutchuser'shomedirectory)如果你用系统用户,这个基本没用
/tomcat启动nutch.war用来search索引的app

3,conf/hadoop-env.sh一定要配置JAVA_HOME,否则系统起不来

4,配置master和slave的ssh,否则每次都要输入passwd
ssh-keygen-trsa
然后回车即可
cpid_rsa.pubauthorized_keys
(copy到其它的slave上)scp/nutch/home/.ssh/authorized_keysnutch@devcluster02:/nutch/home/.ssh/authorized_keys

5,将bin和conf下所有的.sh、nuch、hadoop文件dos2unix
dos2unix/nutch/search/bin/*.sh/nutch/search/bin/hadoop

配置hadoop-size.xml

6,记住要把master文件从nutch/hadoopcopy到这个nutch中,应该是bug。也就是说启动需要这个文件,文件内容为默认的localhost即可(如果是分布式,可能需要配置)

7,nutch+hadoop配置过程中需要格式化namenode
bin/hadoopnamenode-format

8,启动:bin/start-all.sh

9,配置crawl(以配置一个网址lucene.apache.org为例)

cd/nutch/search  mkdirurls  viurls/urllist.txthttp://lucene.apache.org  cd/nutch/search  bin/hadoopdfs-puturlsurls  cd/nutch/search  viconf/crawl-urlfilter.txt  changethelinethatreads:+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/  toread:+^http://([a-z0-9]*\.)*apache.org/

10,启动crawl
bin/nutchcrawlurls-dircrawled-depth4

11,查询
bin/hadoopdfs-copyToLocalcrawled/media/do/nutch/local/(crawled)将index的东西copy到以上配置的local中,因为search不能用dfs中搜索(从文档看是这样)

12,启动nutch.war,测试
vinutch-site.xmlnutch.war中classes下
starttomcat

注意点:
1,masters文件nutch原来没有,需要copy到conf下
2,crawl的log4j配置默认有问题,需要增加:
hadoop.log.dir=.
hadoop.log.file=hadoop.log
3,nutch2.0一定要配置nutch-site.xml。重新配置http.agent。default.xml里面已经存在。


nutch+hadoop配置使用时的问题:
1,运行hadoop程序时,中途我把它终止了,然后再向hdfs加文件或删除文件时,出现Namenodeisinsafemode错误:
rmr:org.apache.hadoop.dfs.SafeModeException:Cannotdelete/user/hadoop/input.Namenodeisinsafemode
解决的命令:
bin/hadoopdfsadmin-safemodeleave#关闭safemode
索引命令:
bin/nutchindexplainindex/paodingindexesplainindex/crawldbplainindex/linkdbplainindex/

segments/20090528132511plainindex/segments/20090528132525plainindex/segments/20090528132602
eg:
index:
bin/nutchindexcrawled/indexes_newcrawled/crawldbcrawled/linkdbcrawled/segments/20100313132517
merge:
bin/nutchmergecrawled/index_newcrawled/indexes_new
去重dedup:
bin/nutchdedupcrawled/index_new。

感谢各位的阅读!关于"nutch+hadoop如何配置"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

配置 文件 内容 系统 索引 也就是 命令 更多 篇文章 问题 不错 实用 东西 也就是说 分布式 存放点 文档 文章 格式 用户 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 软件开发v字流程什么书 数据库如何去最大值 手机显示无服务器应怎样处理 网络技术应聘演讲 数据库收录 pku 阜阳设备保养管理软件开发平台 涉及政府部门的网络安全法 access数据库新老版本 数据库原理技术与应用祝锡勇 数据库原理 教学大纲 关于网络安全的讲座英语作文 昆山市龙网助网络技术服务部 手抄报小学生网络安全 软件开发计划书融资计划书 清华网络安全研究院官方网 数据库最好的学习书籍 服务器一般开发哪些端口 利用个人pc搭建服务器 国泰安数据库指标公式 莱芜服务器管理系统价格 asscee是小型数据库没 网络安全的就业策划书800字 海致网络技术有限公司官网 网络安全阵地管理办法 服务器带外管理和带内管理 网络安全代表人物 西安先通网络技术学校咋样 电脑的kms服务器在哪启动 七绝网络安全 免费的网页代理服务器
0