Python爬虫之采集登陆后才能看到数据的方法是什么
发表于:2025-02-16 作者:千家信息网编辑
千家信息网最后更新 2025年02月16日,这篇文章主要介绍"Python爬虫之采集登陆后才能看到数据的方法是什么",在日常操作中,相信很多人在Python爬虫之采集登陆后才能看到数据的方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好
千家信息网最后更新 2025年02月16日Python爬虫之采集登陆后才能看到数据的方法是什么
这篇文章主要介绍"Python爬虫之采集登陆后才能看到数据的方法是什么",在日常操作中,相信很多人在Python爬虫之采集登陆后才能看到数据的方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"Python爬虫之采集登陆后才能看到数据的方法是什么"的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
爬虫在采集网站的过程中,部分数据价值较高的网站,会限制访客的访问行为。这种时候建议通过登录的方式,获取目标网站的cookie,然后再使用cookie配合代理IP进行数据采集分析。
1 使用表单登陆
这种情况属于post请求,即先向服务器发送表单数据,服务器再将返回的cookie存入本地。
#! -*- encoding:utf-8 -*- import requests import random import requests.adapters # 要访问的目标页面 targetUrlList = [ "https://httpbin.org/ip", "https://httpbin.org/headers", "https://httpbin.org/user-agent", ] # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理隧道验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host": proxyHost, "port": proxyPort, "user": proxyUser, "pass": proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http": proxyMeta, "https": proxyMeta, } # 访问三次网站,使用相同的Session(keep-alive),均能够保持相同的外网IP s = requests.session() # 设置cookie cookie_dict = {"JSESSION":"123456789"} cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True) s.cookies = cookies for i in range(3): for url in targetUrlList: r = s.get(url, proxies=proxies) print r.text
2 使用cookie登陆
使用cookie登陆,服务器会认为你是一个已登陆的用户,所以就会返回给你一个已登陆的内容。因此,需要验证码的情况可以使用带验证码登陆的cookie解决。
response_captcha = requests_session.get(url=url_login, cookies=cookies) response1 = requests.get(url_login) # 未登陆 response2 = requests_session.get(url_login) # 已登陆,因为之前拿到了Response Cookie! response3 = requests_session.get(url_results) # 已登陆,因为之前拿到了Response Cookie!
若存在验证码,此时采用response = requests_session.post(url=url_login, data=data)是不行的,做法应该如下:
response_captcha = requests_session.get(url=url_login, cookies=cookies) response1 = requests.get(url_login) # 未登陆 response2 = requests_session.get(url_login) # 已登陆,因为之前拿到了Response Cookie! response3 = requests_session.get(url_results) # 已登陆,因为之前拿到了Response Cookie!
到此,关于"Python爬虫之采集登陆后才能看到数据的方法是什么"的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注网站,小编会继续努力为大家带来更多实用的文章!
登陆
数据
方法
爬虫
网站
服务器
代理
学习
服务
验证
相同
情况
更多
目标
表单
帮助
不行
实用
接下来
产品
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
太仓品牌网络技术怎么样
绝地求生服务器有哪些
网络安全投标模板
网络安全信息化作文
数据库导出mdf和ldf
宿豫软件开发项目管理
企业数字化管理系统 服务器
服务器什么时候维修比较短
澄久网络技术有限公司
思科参加网络安全宣传
游戏app如何找到后台服务器
前海智付电子软件开发
梦幻新诛仙再续前缘服务器怎么进
盈溢互联网科技
数据库重点
服务器有必要做主机吗
电脑出现服务器远程调用
大连软件开发公司培训排名
app运行网络安全水平
世纪互联软件开发
万达金融网络安全吗
网络安全知识进校园读后感
潍坊软件开发项目
数据库角色员工权限
无线网无法联接服务器
国外服务器桃色直播
用友t3数据库补丁2005
能用阿里云服务器制作影像吗
不沉迷网络安全上网
网络安全标准化项目