如何用python爬虫抓豆瓣电影数据
发表于:2024-11-27 作者:千家信息网编辑
千家信息网最后更新 2024年11月27日,本篇内容介绍了"如何用python爬虫抓豆瓣电影数据"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!代
千家信息网最后更新 2024年11月27日如何用python爬虫抓豆瓣电影数据
本篇内容介绍了"如何用python爬虫抓豆瓣电影数据"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
代理Ip池生成函数
#生成代理池子,num为代理池容量
def proxypool(num): n = 1 os.chdir(r'/Users/apple888/PycharmProjects/proxy IP') fp = open('host.txt', 'r') proxys = list() ips = fp.readlines()
while n for p in ips: ip = p.strip('\n').split('\t') proxy = 'http:\\' + ip[0] + ':' + ip[1] proxies = {'proxy': proxy} proxys.append(proxies) n+=1 return proxys
下面开始爬
下面开始爬豆瓣电影的电影数据,我们要获取 电影名、演员、评分。
#爬豆瓣电影的代码
def fetch_movies(tag, pages, proxys): os.chdir(r'/Users/apple888/PycharmProjects/proxy IP/豆瓣电影') url = 'https://movie.douban.com/tag/爱情?start={}' headers = { 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/' '537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Mobile Safari/537.36'}
#用csv文件保存数据 csvFile = open("{}.csv".format(tag), 'a+', newline='', encoding='utf-8') writer = csv.writer(csvFile) writer.writerow(('name', 'score', 'peoples', 'date', 'nation', 'actor'))
for page in range(0, pages*(20+1), 20): url = url.format(page)
try: respones = requests.get(url, headers=headers, proxies=random.choice(proxys))
while respones.status_code!=200: respones = requests.get(url, headers=headers, proxies=random.choice(proxys)) soup = BeautifulSoup(respones.text, 'lxml') movies = soup.find_all(name='div', attrs={'class': 'pl2'})
for movie in movies: movie = BeautifulSoup(str(movie), 'lxml') movname = movie.find(name='a')
# 影片名 movname = movname.contents[0].replace(' ', '').strip('\n').strip('/').strip('\n') movInfo = movie.find(name='p').contents[0].split('/')
# 上映日期 date = movInfo[0][0:10]
# 国家 nation = movInfo[0][11:-2] actor_list = [act.strip(' ').replace('...', '')
for act in movInfo[1:-1]]
# 演员 actors = '\t'.join(actor_list)
# 评分 score = movie.find('span', {'class': 'rating_nums'}).string
# 评论人数 peopleNum = movie.find('span', {'class': 'pl'}).string[1:-4] writer.writerow((movname, score, peopleNum, date, nation, actors))
except:
continue print('共有{}页,已爬{}页'.format(pages, int((page/20))))
执行上面函数的代码
import timestart = time.time()proxyPool= proxypool(50)fetch_movies('烂片', 111, proxyPool)end = time.time()lastT = int(end-start)print('耗时{}s'.format(lastT))
Perfect
"如何用python爬虫抓豆瓣电影数据"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站,小编将为大家输出更多高质量的实用文章!
电影
豆瓣
数据
代理
爬虫
代码
内容
函数
更多
演员
知识
生成
评分
实用
学有所成
接下来
人数
困境
国家
实际
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络技术是做什么的
postgis创建数据库
亿赛通数据库安全性
云软件开发需要云主机吗
美国对于服务器的管理制度
泗洪自动化网络技术价格查询
自贡市二手服务器回收
在家里搭建服务器
网络建设和网络安全
中金软件开发待遇怎么样
刑警通过网络技术锁定位置
数据库安装系统
网络道德与网络安全论文2500
吉林通讯软件开发服务检测中心
数据库中增加
无线网络安全方式设计
国家网络安全新挑战
很多人问我服务器的32k是怎么弄的
服务器史诗巨作
domcer国际服务器ip
军事互联网软件开发
数据库还原中文乱码
格子达数据库包括知网吗
河西区新时代软件开发供应
rtx服务器 破解
子服务器
为什么服务器不能放在TRUST
阿里云服务器登录记录
服务器是不是硬件机器
熊片数据库正式版