Python爬虫如何采集微博视频数据
发表于:2025-02-03 作者:千家信息网编辑
千家信息网最后更新 2025年02月03日,这篇文章主要介绍了Python爬虫如何采集微博视频数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。知识点requestspprint
千家信息网最后更新 2025年02月03日Python爬虫如何采集微博视频数据
这篇文章主要介绍了Python爬虫如何采集微博视频数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。
知识点
requests
pprint
开发环境
版 本:python 3.8
-编辑器:pycharm 2021.2
爬虫原理
作用:批量获取互联网数据(文本, 图片, 音频, 视频)
本质:一次次的请求与响应
案例实现
1. 导入所需模块
import requestsimport pprint
2. 找到目标网址
打开开发者工具,选中Fetch/XHR,选中数据所在的标签,找到目标所在url
https://www.weibo.com/tv/api/component?page=/tv/channel/4379160563414111/editor
3. 发送网络请求
headers = { 'cookie': '', 'referer': 'https://weibo.com/tv/channel/4379160563414111/editor', 'user-agent': '',}data = { 'data': '{"Component_Channel_Editor":{"cid":"4379160563414111","count":9}}'}url = 'https://www.weibo.com/tv/api/component?page=/tv/channel/4379160563414111/editor'json_data = requests.post(url=url, headers=headers, data=data).json()
4. 获取数据
json_data_2 = requests.post(url=url_1, headers=headers, data=data_1).json()
5. 筛选数据
dict_urls = json_data_2['data']['Component_Play_Playinfo']['urls']video_url = "https:" + dict_urls[list(dict_urls.keys())[0]]print(title + "\t" + video_url)
6. 保存数据
video_data = requests.get(video_url).contentwith open(f'video\\{title}.mp4', mode='wb') as f: f.write(video_data)print(title, "爬取成功................")
完整代码
import requestsimport pprintheaders = { 'cookie': '添加自己的', 'referer': 'https://weibo.com/tv/channel/4379160563414111/editor', 'user-agent': '',}data = { 'data': '{"Component_Channel_Editor":{"cid":"4379160563414111","count":9}}'}url = 'https://www.weibo.com/tv/api/component?page=/tv/channel/4379160563414111/editor'json_data = requests.post(url=url, headers=headers, data=data).json()print(json_data)ccs_list = json_data['data']['Component_Channel_Editor']['list']next_cursor = json_data['data']['Component_Channel_Editor']['next_cursor']for ccs in ccs_list: oid = ccs['oid'] title = ccs['title'] data_1 = { 'data': '{"Component_Play_Playinfo":{"oid":"' + oid + '"}}' } url_1 = 'https://weibo.com/tv/api/component?page=/tv/show/' + oid json_data_2 = requests.post(url=url_1, headers=headers, data=data_1).json() dict_urls = json_data_2['data']['Component_Play_Playinfo']['urls'] video_url = "https:" + dict_urls[list(dict_urls.keys())[0]] print(title + "\t" + video_url) video_data = requests.get(video_url).content with open(f'video\\{title}.mp4', mode='wb') as f: f.write(video_data) print(title, "爬取成功................")
感谢你能够认真阅读完这篇文章,希望小编分享的"Python爬虫如何采集微博视频数据"这篇文章对大家有帮助,同时也希望大家多多支持,关注行业资讯频道,更多相关知识等着你来学习!
数据
篇文章
爬虫
视频
成功
所在
目标
知识
开发
互联网
代码
价值
作用
兴趣
原理
同时
图片
工具
开发者
文本
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络安全英语作文80字六年级
澳门大数据库安全
有关网络安全缺陷
服务器与云服务器提供商
无锡服务器工控机应用案例
计算网络技术考试
关于数字国资一期软件开发
项目数据库表格模板
中国网络安全投诉平台
网络安全大赛中国大学排名
服务器芯片与普通桌面芯片
提升网络安全技能
服务器系统还能启动吗
音乐怎么开启线上服务器
员工网络技术辞职保证书
软件开发行业上下游
萝卜密聊为什么要服务器加入
网络安全小报内容 字
本道互联网科技郑州有限公司
中国水生植物数据库
重庆黑尔普网络技术有限公司
网络安全和信息化四项原则五点
力控怎么把数据保存到数据库
根据网络安全法必须开展
网络安全这项工作
mysql数据库查表名
江苏昆山直播软件开发
阳光网络安全插画
网络安全等级保护第二级
测网站服务器带宽