python如何爬取热门电影
发表于:2024-11-29 作者:千家信息网编辑
千家信息网最后更新 2024年11月29日,本篇内容主要讲解"python如何爬取热门电影",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"python如何爬取热门电影"吧!代码实现'''爬取电影与地址
千家信息网最后更新 2024年11月29日python如何爬取热门电影
本篇内容主要讲解"python如何爬取热门电影",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"python如何爬取热门电影"吧!
代码实现
'''爬取电影与地址路径操作步骤1,获取到url内容2,css选择其选择内容3,保存自己需要数据'''#导入爬虫需要的包import requestsfrom bs4 import BeautifulSoup#requests与BeautifulSoup用来解析网页的import time#设置访问网页时间,防止自己IP访问多了被限制拒绝访问import reclass Position(): def __init__(self,position_name,position_require,):#构建对象属性 self.position_name=position_name self.position_require=position_require def __str__(self): return '%s%s/n'%(self.position_name,self.position_require)#重载方法将输入变量改成字符串形式class Aiqiyi(): def iqiyi(self,url): head= { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.47" } #模拟的服务器头 html = requests.get(url,headers=head) #headers=hard 让脚本以浏览器的方式去访问,有一些网址禁止以python的反爬机制,这就是其中一个 soup = BeautifulSoup(html.content, 'lxml', from_encoding='utf-8') # BeautifulSoup打看网页 soupl = soup.select(".qy-list-wrap") # 查找标签,用css选择器,选择自己需要数据 进行选择页面第一次内容(标签要找到唯一的,找id好,如果没有考虑其他标签如class) results = [] # 创建一个列表用来存储数据 for e in soupl: biao = e.select('.qy-mod-li') # 进行二次筛选 for h in biao: p=Position(h.select_one('.qy-mod-link-wrap').get_text(strip=True), h.select_one('.title-wrap').get_text(strip=True))#调用类转换(继续三次筛选选择自己需要内容) results.append(p) return results # 返回内容 def address(self,url): #保存网址 head = { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.47" } # 模拟的服务器头 html = requests.get(url, headers=head) soup = BeautifulSoup(html.content, 'lxml', from_encoding='utf-8') # BeautifulSoup打看网页 alist = soup.find('div', class_='qy-list-wrap').find_all("a") # 查找div块模块下的 a标签 ls=[] for i in alist: ls.append(i.get('href')) return lsif __name__ == '__main__': time.sleep(2) #设置2秒访问一次 a=Aiqiyi() url = "https://list.*****.com/www/1/-------------11-1-1-iqiyi--.html" with open(file='e:/练习.txt ', mode='a+') as f: # e:/练习.txt 为我电脑新建的文件,a+为给内容进行添加,但不进行覆盖原内容。 for item in a.iqiyi(url): line = f'{item.position_name} {item.position_require}' f.write(line) # 采用方法 print("下载完成") with open(file='e:/地址.txt ', mode='a+') as f: # e:/练习.txt 为我电脑新建的文件,a+为给内容进行添加,但不进行覆盖原内容。 for item in a.address(url): line=f'https{item}' f.write(line) # 采用方法 print("下载完成")
到此,相信大家对"python如何爬取热门电影"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
内容
选择
电影
方法
标签
网页
热门
数据
地址
文件
服务器
电脑
网址
学习
服务
实用
更深
代码
兴趣
变量
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络安全的实训总结报告
ibm 数据库服务器
手抄报网络安全一年级的简单画
怎么画数据库结构图
改订医学数据库的通知
rust租什么服务器
怎么可以联系到网络技术
数据库的封装调用
国军标软件开发
关于软件开发合同的解除
云顶之弈经常无法连接服务器
绍兴服务器机柜网络机柜
广州增城区软件开发公司多吗
云服务器供应商怎么选择
周年庆服务器
sql数据库多少钱一套
不属于关系型数据库
根据出生日期更新数据库年龄
hp服务器上硬盘灯红色
我的世界服主怎么管理服务器
服务器管理机房it维保
怎么用access创建数据库
品茗软件开发
本地服务器和自己电脑区别
插入数据库后值全变为0
数据库中字段过多怎么办
网络安全和信息化领域人才建议
网络安全在我身边的名人警句
服务器安全输入528
网络技术员工作内容