千家信息网

Nutch怎么使用

发表于:2024-10-21 作者:千家信息网编辑
千家信息网最后更新 2024年10月21日,这篇文章主要讲解了"Nutch怎么使用",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"Nutch怎么使用"吧!Nutch现在已经到了2.2.2版本,而且
千家信息网最后更新 2024年10月21日Nutch怎么使用

这篇文章主要讲解了"Nutch怎么使用",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"Nutch怎么使用"吧!

Nutch现在已经到了2.2.2版本,而且版本1.x已经更新到了1.8,这里以1.7为例,1.8中的部分命令行工具的API有变,入门时不是很容易。

#安转运行Nutch#

  • 下载安装Nutch

  • 在${NUTCH_HOME}下,mkdir urls

  • cd urls

  • touch seed.txt

  • edit seed.txt ,write :http://nutch.apache.org

  • edit ${NUTCH_HOME}/conf/regex.urlfilter.txt

  • replace

'#accept anything else+.

with

+^http://([a-z0-9]*\.)*nutch.apache.org/
  • 爬取网页: bin/nutch crawl urls -dir crawl -depth 3 -topN 5 注意:此命令1.8版本有改变

#安装Solr#

  • 下载安装Solr,我使用的时最新版的4.8

  • cd ${SOLR_HOME}/example

  • java -jar start.jar

  • 验证安装:http://localhost:8983/solr/

#Nutch和Solr集成# 这里要注意:文档说了那么多其实只有两件事:

  • 使用${NUTCH_HOME}/conf/schema-solr4.xml 替换掉${SOLR_HOME}/example/solr/collection1/conf/schema.xml ,并将schema-solr4.xml改名为schema.xml

  • 在schema.xml中第351行后面(其实只要添加在types标签中即可)添加:

到这里集成就完成了。现在只要重新启动solr,并用下面的命令将Nutch爬取的数据索引到solr即可。

在${NUTCH_HOME}下,运行:

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

然后访问:http://localhost:8983/solr/

感谢各位的阅读,以上就是"Nutch怎么使用"的内容了,经过本文的学习后,相信大家对Nutch怎么使用这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是,小编将为大家推送更多相关知识点的文章,欢迎关注!

命令 版本 学习 内容 验证 只有 就是 工具 思路 情况 成就 数据 文档 文章 更多 最新版 标签 知识 知识点 篇文章 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 深圳开放大学计算机网络技术 linux服务器怎么用 四年级作文网络安全 像素工厂怎么查看自己服务器地址 曲阜远东职业学院网络安全专业 阿里云云服务器安全组 网络安全主题的电子小报 互联网科技论文300字 英雄联盟外服如何切换服务器 科技互联网企业面临强监管 sql数据库 同步 服务器的mac地址能给别人吗 网络安全知识测试情况汇报 重庆小程序直播软件开发 山东省智维软件开发有限公司 天津华为服务器维修价格 计算机网络技术主要课程介绍 黄鸟可以修改服务器发送的数据 数据库依赖保护的意思 数据库原理习题与解析第3版 宝丰能源有软件开发岗位 pdf服务器的控制端口一般是 redis无法加载数据库 天镇机械网络安全服务保障 计算机环境软件开发 怎么打开安装好的数据库 天津华为服务器维修价格 新兴网络安全项目 项目网络安全有什么特点 数据库复制软件
0