怎么用Nutch抓取需要登录的网站
发表于:2024-10-22 作者:千家信息网编辑
千家信息网最后更新 2024年10月22日,本篇内容介绍了"怎么用Nutch抓取需要登录的网站"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!To
千家信息网最后更新 2024年10月22日怎么用Nutch抓取需要登录的网站
本篇内容介绍了"怎么用Nutch抓取需要登录的网站"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
Tomcat自身带的后台管理程序是需要用户登录的,这样的网站如何用Nutch来爬呢?Nutch可以处理Http authentication(BASIC, DIGEST)这种稍显简单的认证,对于普遍流行的用户自定义Form表单以Post或Get方式提交数据认证的情况,Nutch就无能为力了,就更不用说复杂验证码的认证方式了。
下面用一个简单的例子说明如何配置Nutch,使其能爬需要Http authentication(BASIC, DIGEST)的站点。
1、修改Tomcat配置文件conf/tomcat-users.xml,增加如下配置然后重启,一个用户即可访问所有资源:
2、修改Nutch配置文件conf/httpclient-auth.xml,增加如下配置,指定访问特定网站的时候需要出示的用户名和密码:
3、启用httpclient插件,在nutch-site.xml中重新指定配置项plugin.includes的值,把protocol-http改为protocol-httpclient:
plugin.includes protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)
4、准备注入的URL文件:
mkdir urls echo 'http://localhost:8080/' > urls/url
5、修改URL过滤文件conf/regex-urlfilter.txt限制抓取范围:
#-[?*!@=]+^http://localhost:8080/-.
6、运行爬虫,参数为:
bin/nutch crawl urls -dir data -solr http://localhost:8983/solr/collection1 -depth 30 &
7、查看抓取下来的URL及其状态发现,成功!
"怎么用Nutch抓取需要登录的网站"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站,小编将为大家输出更多高质量的实用文章!
配置
网站
文件
用户
登录
认证
内容
情况
方式
更多
知识
复杂
实用
无能
成功
无能为力
学有所成
接下来
不用
不用说
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络安全有什么考试
幻塔服务器怎么删除一个
刷销量软件开发微店
互联网汽车金融科技平台
医疗单位网络安全的方案
网络安全互通视频
云服务器进安全模式
去维护网络安全英文
学网络安全需要懂哪些
2008服务器ip怎么设置
惠普加wifi打印服务器
临汾市委网络安全普查
服务器的lag是什么意思
服务器文件管理软件哪个好用
香港中原数据库
数控软件开发工资高吗
软件开发什么是核心
综合网络技术咨询怎么样
药学服务数据库的基本资料
数据库间建立联系是通过主
上海云站网络技术服务中心
wlan代理服务器
软件开发30人合理吗
视频安防软件开发价位
mysql数据库开发流程
网络安全即国家安全是思政元素吗
互联网金融与金融科技创新
福建惠普服务器虚拟化系统云主机
服务器如何运用java代码
数据库级别的锁芯最安全图解