python如何爬取免费代理并验证代理是否可用
发表于:2024-09-22 作者:千家信息网编辑
千家信息网最后更新 2024年09月22日,python如何爬取免费代理并验证代理是否可用,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。分享一个python脚本,使用代理ip来
千家信息网最后更新 2024年09月22日python如何爬取免费代理并验证代理是否可用
python如何爬取免费代理并验证代理是否可用,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。
分享一个python脚本,使用代理ip来访问网页,方便抓取数据什么的~并自动验证ip是否可以用
什么情况下会用到代理IP?比如你要抓取一个网站数据,该网站有100万条内容,他们做了IP限制,每个IP每小时只能抓1000条,如果单个IP去抓因为受限,需要40天左右才能采集完,如果用了代理IP,不停的切换IP,就可以突破每小时1000条的频率限制,从而提高效率。
脚本开始:
import requestsfrom lxml import etree# 获取快代理首页的代理def get_proxy_list(): url = "https://www.jxmtjt.com/" payload = {} headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36", 'Accept': 'application/json, text/javascript, */*; q=0.01', } response = requests.request("GET", url, headers=headers, data=payload) res = [] _ = etree.HTML(response.text) type_dct = { "HTTP": "http://", "HTTPS": "https://" } data_list = _.xpath("//tbody/tr") for data in data_list: ip = data.xpath("./td[1]/text()")[0] port = data.xpath("./td[2]/text()")[0] type = data.xpath("./td[4]/text()")[0] res.append(type_dct[type] + ip + ':' + port) return res# 测试代理def check(proxy): href = 'http://www.baidu.com/' if 'https' in proxy: proxies = {'https': proxy} else: proxies = {'http': proxy} headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4396.0 Safari/537.36' } try: r = requests.get(href, proxies=proxies, timeout=5, headers=headers) if r.status_code == 200: return True except: return Falseif __name__ == '__main__': proxy_list = get_proxy_list() print(proxy_list) for p in proxy_list: print(p, check(p))大家代码复制后,把获取代理ip的网址改一改就可以用了,代码我一直在用,大家也可以cnblogs,百度搜索一下有没有免费的代理ip获取网址~
关于python如何爬取免费代理并验证代理是否可用问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注行业资讯频道了解更多相关知识。
代理
验证
问题
代码
内容
小时
数据
更多
网址
网站
脚本
帮助
解答
限制
易行
简单易行
万条
单个
小伙
小伙伴
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
百台服务器管理
2019网络安全法律法规
网络安全设备的性能和配置
服务器的月流量是什么意思
互联网大会标贝科技
提高公司网络安全
网络安全作文500字
如何查询软件开发公司
网络技术的发展对社会的影响
边缘服务器说明什么
硬件设计如何仿真软件开发
参考软件开发活动方案
软件开发管理的痛点
山东正规的浪潮服务器多少钱
数据库中怎么输出第几行的内容
图片托管服务器
平原租房软件开发
网站 租用服务器价格
浙江湖州移动宽带服务器
软件开发应具备什么知识
软件开发 知识图谱
moxa串口服务器穿透功能
山西恒山系列鲲鹏服务器
计算机变成web服务器
员工管理系统总结数据库
腾讯软件开发
隐藏ssid无线网络安全吗
网站 租用服务器价格
闵行区威力软件开发厂家直销
北京科东网络安全监测装置型号