如何用python爬虫抓豆瓣电影数据
发表于:2025-02-02 作者:千家信息网编辑
千家信息网最后更新 2025年02月02日,本篇内容介绍了"如何用python爬虫抓豆瓣电影数据"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!代
千家信息网最后更新 2025年02月02日如何用python爬虫抓豆瓣电影数据
本篇内容介绍了"如何用python爬虫抓豆瓣电影数据"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
代理Ip池生成函数
#生成代理池子,num为代理池容量
def proxypool(num): n = 1 os.chdir(r'/Users/apple888/PycharmProjects/proxy IP') fp = open('host.txt', 'r') proxys = list() ips = fp.readlines()
while n for p in ips: ip = p.strip('\n').split('\t') proxy = 'http:\\' + ip[0] + ':' + ip[1] proxies = {'proxy': proxy} proxys.append(proxies) n+=1 return proxys
下面开始爬
下面开始爬豆瓣电影的电影数据,我们要获取 电影名、演员、评分。
#爬豆瓣电影的代码
def fetch_movies(tag, pages, proxys): os.chdir(r'/Users/apple888/PycharmProjects/proxy IP/豆瓣电影') url = 'https://movie.douban.com/tag/爱情?start={}' headers = { 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/' '537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Mobile Safari/537.36'}
#用csv文件保存数据 csvFile = open("{}.csv".format(tag), 'a+', newline='', encoding='utf-8') writer = csv.writer(csvFile) writer.writerow(('name', 'score', 'peoples', 'date', 'nation', 'actor'))
for page in range(0, pages*(20+1), 20): url = url.format(page)
try: respones = requests.get(url, headers=headers, proxies=random.choice(proxys))
while respones.status_code!=200: respones = requests.get(url, headers=headers, proxies=random.choice(proxys)) soup = BeautifulSoup(respones.text, 'lxml') movies = soup.find_all(name='div', attrs={'class': 'pl2'})
for movie in movies: movie = BeautifulSoup(str(movie), 'lxml') movname = movie.find(name='a')
# 影片名 movname = movname.contents[0].replace(' ', '').strip('\n').strip('/').strip('\n') movInfo = movie.find(name='p').contents[0].split('/')
# 上映日期 date = movInfo[0][0:10]
# 国家 nation = movInfo[0][11:-2] actor_list = [act.strip(' ').replace('...', '')
for act in movInfo[1:-1]]
# 演员 actors = '\t'.join(actor_list)
# 评分 score = movie.find('span', {'class': 'rating_nums'}).string
# 评论人数 peopleNum = movie.find('span', {'class': 'pl'}).string[1:-4] writer.writerow((movname, score, peopleNum, date, nation, actors))
except:
continue print('共有{}页,已爬{}页'.format(pages, int((page/20))))
执行上面函数的代码
import timestart = time.time()proxyPool= proxypool(50)fetch_movies('烂片', 111, proxyPool)end = time.time()lastT = int(end-start)print('耗时{}s'.format(lastT))
Perfect
"如何用python爬虫抓豆瓣电影数据"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站,小编将为大家输出更多高质量的实用文章!
电影
豆瓣
数据
代理
爬虫
代码
内容
函数
更多
演员
知识
生成
评分
实用
学有所成
接下来
人数
困境
国家
实际
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
服务器管理与应用期末论文
福建专升本关系数据库理论
双引号数据库百科
ec服务器流浪旅者
可以查阅生存期的数据库
怎么同步服务器上的时间
金蝶专业版数据库
头等舱互联网科技深圳
数据库一词起源
网约车平台的数据库
overlay网络技术研究
服务器设置无线网
高新区正规网络技术专业服务
开源网络安全工具排名
移动数据服务器是什么意思
浙江商城软件开发公司
aws 数据库备份
hive数据库和表的操作
记账数据库
如何避免服务器超时
c软件开发项目
湖州智能化网络技术来电咨询
商丘网络技术联系方式
法纪规范月保证书网络安全
一个家网络技术有限公司
重庆常规软件开发服务常见问题
雨灵网络技术
腾旅上海互联网科技
双阳区通用网络技术咨询诚信服务
组态王查询数据库数据慢