怎么用Nutch抓取需要登录的网站
发表于:2024-11-24 作者:千家信息网编辑
千家信息网最后更新 2024年11月24日,本篇内容介绍了"怎么用Nutch抓取需要登录的网站"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!To
千家信息网最后更新 2024年11月24日怎么用Nutch抓取需要登录的网站
本篇内容介绍了"怎么用Nutch抓取需要登录的网站"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
Tomcat自身带的后台管理程序是需要用户登录的,这样的网站如何用Nutch来爬呢?Nutch可以处理Http authentication(BASIC, DIGEST)这种稍显简单的认证,对于普遍流行的用户自定义Form表单以Post或Get方式提交数据认证的情况,Nutch就无能为力了,就更不用说复杂验证码的认证方式了。
下面用一个简单的例子说明如何配置Nutch,使其能爬需要Http authentication(BASIC, DIGEST)的站点。
1、修改Tomcat配置文件conf/tomcat-users.xml,增加如下配置然后重启,一个用户即可访问所有资源:
2、修改Nutch配置文件conf/httpclient-auth.xml,增加如下配置,指定访问特定网站的时候需要出示的用户名和密码:
3、启用httpclient插件,在nutch-site.xml中重新指定配置项plugin.includes的值,把protocol-http改为protocol-httpclient:
plugin.includes protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)
4、准备注入的URL文件:
mkdir urls echo 'http://localhost:8080/' > urls/url
5、修改URL过滤文件conf/regex-urlfilter.txt限制抓取范围:
#-[?*!@=]+^http://localhost:8080/-.
6、运行爬虫,参数为:
bin/nutch crawl urls -dir data -solr http://localhost:8983/solr/collection1 -depth 30 &
7、查看抓取下来的URL及其状态发现,成功!
"怎么用Nutch抓取需要登录的网站"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站,小编将为大家输出更多高质量的实用文章!
配置
网站
文件
用户
登录
认证
内容
情况
方式
更多
知识
复杂
实用
无能
成功
无能为力
学有所成
接下来
不用
不用说
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络技术与英语高效课堂
网络安全测试电子邮箱
简单mysql数据库
医院网络安全防护方案
软件开发需求变更该怎么办
jdbc和数据库的课程设计
服务器双cpu如何加水冷
常用的数据库软件及其用途规模
小学生家庭教育与网络安全1
39岁软件开发应该
学网络安全要vps吗
金山区推广软件开发五星服务
收银系统数据库连接失败
高青客户服务crm软件开发
太仓营销网络技术哪家好
家庭网络安全教育美篇
魔方软件开发
网络安全事件
广安软件开发专业定制
暨南大学数据库
深圳市亚辉龙 软件开发
pci1756 软件开发
一个服务器筛盐器冷却时间一样吗
镇魔曲手游最新服务器
嘉兴物流软件开发流程
服务器丢包严重延时正常
北京制造软件开发经历
网络安全 2017 大会
阿里巴巴软件开发架构
终端服务器最大