怎么用Python爬取2022春节档电影信息
发表于:2025-02-01 作者:千家信息网编辑
千家信息网最后更新 2025年02月01日,这篇文章将为大家详细讲解有关怎么用Python爬取2022春节档电影信息,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。实验环境Python 3.x (面向对象的高级
千家信息网最后更新 2025年02月01日怎么用Python爬取2022春节档电影信息
这篇文章将为大家详细讲解有关怎么用Python爬取2022春节档电影信息,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。
实验环境
Python 3.x (面向对象的高级语言)
Resquest 2.14.2 (python第三方库)
Pandas 1.1.0(python第三方库)
Time (python标准库)
Lxml(python第三方库)
具体步骤
目标网站
https://movie.douban.com/cinema/later/shenzhen/
分析网站
按F12打开浏览器操作台
按Ctrl+Shift+C快捷键
按Ctrl+F快捷键,控制台出现搜索框
复制Xpath
Xpath为//*[@id="showing-soon"]/div[1]/div/h4/a
粘贴到搜索框,验证Xpath
查看HTML,寻找共性
发现目标元素都在一个div框里,修改Xpath
Xpath修改为//*[@id="showing-soon"]/div/div/h4/a
其余目标元素,以此类推
最后,用Pandas保存为CSV文件
# 利用pandas保存文件df = pd.DataFrame()df['上映日期'] = Ondatedf['片名'] = namedf['类型'] = movie_classdf['制片国家/地区'] = areadf['想看人数'] = numdf['超链接'] = href
代码实现
# -*- coding: utf-8 -*-"""Created on Tue Jan 25 10:07:11 2022@author: TFX"""import timeimport requests # 请求库import pandas as pdfrom lxml import etree# 提取信息库# 日期today = time.strftime('%Y{y}%m{m}%d{d}',time.localtime()).format(y='年',m='月',d='日')# 网址url = 'https://movie.douban.com/cinema/later/shenzhen/'# 请求头headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36' }# 发送请求response = requests.get(url=url,headers=headers)# 数据解析,xpath可以用浏览器检查元素获得html = etree.HTML(response.text) #类型变换# 电影详细超链接href = html.xpath('//*[@id="showing-soon"]/div/div/h4/a/@href')# 上映日期Ondate = html.xpath('//*[@id="showing-soon"]/div/div/ul/li[1]/text()')# 片名name = html.xpath('//*[@id="showing-soon"]/div/div/h4/a/text()')# 类型movie_class = html.xpath('//*[@id="showing-soon"]/div/div/ul/li[2]/text()')# 制片国家 / 地区area = html.xpath('//*[@id="showing-soon"]/div/div/ul/li[3]/text()')# 想看人数num = html.xpath('//*[@id="showing-soon"]/div/div/ul/li[4]/span/text()')# 利用pandas保存文件df = pd.DataFrame()df['上映日期'] = Ondatedf['片名'] = namedf['类型'] = movie_classdf['制片国家/地区'] = areadf['想看人数'] = numdf['超链接'] = hrefdf.to_csv('2022春节档电影_'+today+'.csv',mode='w',index=None,encoding='gbk')print('保存完成!')
输出结果
关于"怎么用Python爬取2022春节档电影信息"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。
电影
日期
类型
信息
人数
元素
国家
地区
文件
片名
目标
第三方
篇文章
链接
制片
快捷键
更多
浏览器
网站
搜索
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
工务段网络安全
数据库连接api接口填报数据
湖北浪潮服务器维修调试哪家好
组态软件开发监控系统软
mcu软件开发主要干嘛
我的世界管理员恶搞服务器
沈阳新华互联网科技学校位置
广州有效的社交软件开发
安徽通信软件开发服务检测中心
数据库连接端口
国家正规论文数据库
二进制数据库.db文件
gmail邮件服务器地址
R语言连接数据库的包
怎样实现数据库自动分区
数据库系统的安全性问题
展厅软件开发
管理服务器关不了
滨州设备管理软件开发
fm21传奇数据库
组件软件开发团队
数据库视图的建立实验心得
服务器 r
网络安全软件投资
服务器壁纸
电力局网络安全值班员岗位考试
网页总是提醒服务器时间不对
数据安全属于网络安全的内容
fxp服务器密码是什么
金山区软件开发厂家报价