怎么用python爬虫豆瓣电影数据
发表于:2025-01-30 作者:千家信息网编辑
千家信息网最后更新 2025年01月30日,这篇文章主要介绍"怎么用python爬虫豆瓣电影数据",在日常操作中,相信很多人在怎么用python爬虫豆瓣电影数据问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"怎么用
千家信息网最后更新 2025年01月30日怎么用python爬虫豆瓣电影数据
这篇文章主要介绍"怎么用python爬虫豆瓣电影数据",在日常操作中,相信很多人在怎么用python爬虫豆瓣电影数据问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"怎么用python爬虫豆瓣电影数据"的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
下面我们从 国内高匿代理IP 获得代理IP数据。
import os
import time
import requests
from bs4 import BeautifulSoup
#num获取num页 国内高匿ip的网页中代理数据def
fetch_proxy(num): #修改当前工作文件夹 os.chdir(r'/Users/apple888/PycharmProjects/proxy IP') api = 'http://www.xicidaili.com/nn/{}' header = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS
X 10_12_3) AppleWebKit/537.36 (KHTML,
like Gecko) Chrome/56.0.2924.87 Safari/537.36'} fp = open('host.txt', 'a+', encoding=('utf-8'))
for i in range(num+1): api = api.format(1) respones = requests.get(url=api, headers=header) soup = BeautifulSoup(respones.text, 'lxml') container = soup.find_all(name='tr',attrs={'class':'odd'})
for tag in container:
try: con_soup = BeautifulSoup(str(tag),'lxml') td_list = con_soup.find_all('td') ip = str(td_list[1])[4:-5] port = str(td_list[2])[4:-5] IPport = ip + '\t' + port + '\n' fp.write(IPport)
except Exception as e: print('No IP!') time.sleep(1) fp.close()
我们准备抓 国内高匿代理IP网 的十个页面的代理
但是有代理IP还不行,因为我们不知道这代理能不能用,是否有效。
下面我们用百度网进行检验(大公司不怕咱们短时间内高频率访问),上代码:
import os
import time
import requests
from bs4 import BeautifulSoup
def test_proxy(): N = 1 os.chdir(r'/Users/apple888/PycharmProjects/proxy IP') url = 'https://www.baidu.com' fp = open('host.txt', 'r') ips = fp.readlines() proxys = list()
for p in ips: ip = p.strip('\n').split('\t') proxy = 'http:\\' + ip[0] + ':' + ip[1] proxies = {'proxy': proxy} proxys.append(proxies)
for pro in proxys:
try: s = requests.get(url, proxies=pro) print('第{}个ip:{} 状态{}'.format(N,pro,s.status_code)) except Exception as e: print(e) N+=1
到此,关于"怎么用python爬虫豆瓣电影数据"的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注网站,小编会继续努力为大家带来更多实用的文章!
代理
数据
爬虫
电影
豆瓣
学习
更多
帮助
不行
实用
有效
接下来
上代
公司
文件
文件夹
文章
方法
时间
状态
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
图书数据库名称是什么
南京云巍互联网科技公司
配电网数据库研究
农行审计岗和中行软件开发中心
网络安全教育内容班会材料
云服务器托管怎么选择
实现数据库中的连接
数据库两个字段值相同怎么查询
腾讯网络安全学院官网
网络安全技术人员如何避开内卷
服务器的增强的安全配置怎么关
彩虹在线网络技术
工程类软件开发工资
计算机图形学软件开发过程
黑魂3连不上服务器能联机吗
服务器10m带宽
医院网络安全人员管理制度
项目和数据库的关系
山西好软件开发培训
为什么辐射4无法登录到服务器
服务器开什么端口
唐山非凡互联网科技有限公司
冷水江手机软件开发
虚拟软件开发专业
斗鱼玩游戏没有显示服务器
武汉网络技术支持
八猫服务器
碧桂园 软件开发岗待遇
软件开发公司出纳
如何查看远程登录我的服务器