怎么用python爬取猫眼电影的前100部影片
发表于:2024-10-27 作者:千家信息网编辑
千家信息网最后更新 2024年10月27日,这篇文章主要介绍"怎么用python爬取猫眼电影的前100部影片",在日常操作中,相信很多人在怎么用python爬取猫眼电影的前100部影片问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法
千家信息网最后更新 2024年10月27日怎么用python爬取猫眼电影的前100部影片
这篇文章主要介绍"怎么用python爬取猫眼电影的前100部影片",在日常操作中,相信很多人在怎么用python爬取猫眼电影的前100部影片问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"怎么用python爬取猫眼电影的前100部影片"的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
import requests
import re
from bs4 import BeautifulSoup
from lxml import etree
import traceback
import csv
#定义一个函数获取豆瓣电影第一页
def get_one_page(url,code = 'utf-8'):
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36'}
try:
r = requests.get(url,headers = headers)
if r.status_code == 200:
r.encoding = code
return r.text
else:
print("相应失败")
return None
except:
traceback.print_exc()
def process(raw):
right = raw.split("@")
return right[0]
def area(a):
if a[-1] == ")":
return a[16:]
else:
return None
def parse_one_page(slst,html):
#正则表达式
# rank = re.findall('
.*?',html,re.S) # name = re.findall('
(.*?)',html,re.S) # star = re.findall('
(.*?)
',html,re.S)# time = re.findall('
(.*?)
',html,re.S)# print(time)
#正则表达式别忘了加上r,防止转义,否则会报错
# 把上面的正则表达式合在一起
pattern = re.compile(r'
.*?.*?
(.*?).*? (.*?)
.*?(.*?)
.*?<.*?>(.*?)(.*?)
',re.S)items = re.findall(pattern,html)
#print(items)
for item in items:
#yield就相当于return的功能,但也有所不同,yield语句把程序编程迭代器
yield {
'rank':item[0],
'img':process(item[1]),
'MovieName':item[2],
"star":item[3].strip()[3:],
"time":item[4].strip()[5:15],
"area":area(item[4].strip()),
"score":str(item[5]) + str(item[6])
}
# return ""
def write_to_file(item):
with open("猫眼top100.csv",'a',encoding = "utf_8_sig",newline="") as f:
#a追加模式 newline区分换行符
fieldnames = ['rank','img','MovieName','star','time','area','score']
w = csv.DictWriter(f,fieldnames = fieldnames) #字典写入到csv
# w.writeheader()
w.writerow(item)
return ""
def down_img(name,url,num):
try:
response = requests.get(url)
with open('C:/Users/HUAWEI/Desktop/py/爬虫/douban/'+name+'.jpg','wb') as f:
f.write(response.content)
print("第%s张图片下载完毕"%str(num))
print("="*20)
except Exception as e:
print(e.__class__.__name__) #打印错误类型名称
def main(i):
num = 0
url = 'https://maoyan.com/board/4?offset=' + str(i)
html = get_one_page(url)
#print(html)
lst = [] #这个在这里没啥用,但以后若要单独存储某类信息,可是这样写,后面再对应加上函数参数
iterator = parse_one_page(lst,html)
for a in iterator:
#print(a)
num += 1
write_to_file(a)
down_img(a['MovieName'],a['img'],num)
# if __name__ == '__main__':
# for i in range(10):
# main(i)
#多线程抓取
from multiprocessing import Pool
if __name__ == '__main__':
pool = Pool()
pool.map(main,[i * 10 for i in range(10)])
最终运行结果如下:
保存封面图片
把爬到的信息储存到csv文件中
到此,关于"怎么用python爬取猫眼电影的前100部影片"的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注网站,小编会继续努力为大家带来更多实用的文章!
猫眼
电影
影片
学习
正则
表达式
函数
图片
更多
帮助
不同
实用
接下来
功能
参数
名称
图片下载
字典
封面
换行符
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
富士RX2520服务器价格
优货通灯饰软件开发供应
福田区网络技术转移优点
我的世界服务器怎么重新生成地图
国家网络安全博弈
华为手机无法连接服务器怎么开启
有名的网络技术咨询有哪些
java软件开发用什么主板
网络安全 互动体验
粘土服务器如何退出队伍
东莞软件开发贵吗
数据库查询前三
数据库简单问题
软件开发转管理
文件管理方式与数据库管理方式
中公优就业软件开发专业怎么样
数据库的5个安全等级
北京赛施网络技术有限公司
编程代码和软件开发好学吗
网络安全工作总结汇报PPT
直播软件开发细致流程
福田区网络技术转移优点
电影里的服务器机房图片
空卡代还软件开发
粘土服务器如何退出队伍
三星服务器内存2933
计算机word综合 数据库
初二网络安全手抄报a3纸
中兴服务器设置网卡开机启动
关于数据库的安全性