导航：首页 > 服务器 >

怎么用Nutch抓取需要登录的网站

发表于：2024-11-24 作者：千家信息网编辑

千家信息网最后更新 2024年11月24日，本篇内容介绍了"怎么用Nutch抓取需要登录的网站"的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！To

千家信息网最后更新 2024年11月24日怎么用Nutch抓取需要登录的网站

本篇内容介绍了"怎么用Nutch抓取需要登录的网站"的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

Tomcat自身带的后台管理程序是需要用户登录的，这样的网站如何用Nutch来爬呢？Nutch可以处理Http authentication(BASIC, DIGEST)这种稍显简单的认证，对于普遍流行的用户自定义Form表单以Post或Get方式提交数据认证的情况，Nutch就无能为力了，就更不用说复杂验证码的认证方式了。

下面用一个简单的例子说明如何配置Nutch，使其能爬需要Http authentication(BASIC, DIGEST)的站点。

1、修改Tomcat配置文件conf/tomcat-users.xml，增加如下配置然后重启，一个用户即可访问所有资源：

2、修改Nutch配置文件conf/httpclient-auth.xml，增加如下配置，指定访问特定网站的时候需要出示的用户名和密码：

3、启用httpclient插件，在nutch-site.xml中重新指定配置项plugin.includes的值，把protocol-http改为protocol-httpclient：

  plugin.includes  protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)

4、准备注入的URL文件：

mkdir urls  echo 'http://localhost:8080/' > urls/url

5、修改URL过滤文件conf/regex-urlfilter.txt限制抓取范围：

#-[?*!@=]+^http://localhost:8080/-.

6、运行爬虫，参数为：

bin/nutch crawl urls -dir data -solr http://localhost:8983/solr/collection1 -depth 30 &

7、查看抓取下来的URL及其状态发现，成功！

"怎么用Nutch抓取需要登录的网站"的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站，小编将为大家输出更多高质量的实用文章！

很赞哦！

千家信息网

千家信息网

怎么用Nutch抓取需要登录的网站

华为云服务器端口打开失败如何解决

Ubuntu 9.10新特性有哪些

相关文章