千家信息网

Python怎么爬取yy全站小视频

发表于:2024-11-24 作者:千家信息网编辑
千家信息网最后更新 2024年11月24日,本篇内容介绍了"Python怎么爬取yy全站小视频"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!基本
千家信息网最后更新 2024年11月24日Python怎么爬取yy全站小视频

本篇内容介绍了"Python怎么爬取yy全站小视频"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

基本开发环境

  • Python 3.6

  • Pycharm

相关模块的使用

import osimport requests

安装Python并添加到环境变量,pip安装需要的相关模块即可。

一、确定目标需求


百度搜索YY,点击分类选择小视频,里面的小姐姐自拍的短视频就是我们所需要的数据了。


如图所示,所框选的url地址,就是短视频的播放地址了。


第三页的数据请求参数:


很明显这是根据data参数中的page改变翻页的。

构建翻页循环,获取视频url地址以及发布人的名字,保存到本地。

三、代码实现

1、请求数据接口

import requestsurl = 'https://api-tinyvideo-web.yy.com/home/tinyvideosv2'params = {    'callback': 'jQuery112409962628943012035_1613628479734',    'appId': 'svwebpc',    'sign': '',    'data': '{"uid":0,"page":0,"pageSize":10}',    '_': '1613628479737',}headers = {    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}response = requests.get(url=url, params=params, headers=headers)

问题来了,返回的数据是json数据嘛?


如上图所示,很多人看到这样的数据肯定就觉得这不就是一个json数据嘛?


通过response查看就知道了,返回给我们的数据是多了一段 jQuery112409962628943012035_1613628479734()
其中的json数据是包含在里面的,如果想要提取数据有三种方法。

1、返回response.text,使用正则表达式提取url地址以及发布人的名字

video_url = re.findall('"resurl":"(.*?)"', response.text)user_name = re.findall('"username":"(.*?)"', response.text)


2、返回response.text,使用正则表达式提取 jQuery112409962628943012035_1613628479734() 中的数据,然后通过json模块把字符串转成json数据,然后遍历提取数据。

string = re.findall('jQuery112409962628943012035_1613628479734\((.*?)\)', response.text)[0]json_data = json.loads(string)result = json_data['data']['data']pprint.pprint(result)


3、把请求的url地址中的 callback 删掉,可以直接获取json数据

import pprintimport requestsurl = 'https://api-tinyvideo-web.yy.com/home/tinyvideosv2'params = {    'appId': 'svwebpc',    'sign': '',    'data': '{"uid":0,"page":1,"pageSize":10}',    '_': '1613628479737',}headers = {    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}response = requests.get(url=url, params=params, headers=headers)json_data = response.json()result = json_data['data']['data']pprint.pprint(result)

2、保存数据

    for index in result:        video_url = index['resurl']        user_name = index['username']        video_content = requests.get(url=video_url, headers=headers).content        with open('video\\' + user_name + '.mp4', mode='wb') as f:            f.write(video_content)            print(user_name)

注意点: 用户名有特殊字符,保存的时候会报错


所以需要使用正则表达式替换掉特殊字符

def change_title(title):    pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]")  # '/ \ : * ? ">

完整实现代码

import reimport requestsimport redef change_title(title):    pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]")  # '/ \ : * ? " < > |'    new_title = re.sub(pattern, "_", title)  # 替换为下划线    return new_titlepage = 0while True:    page += 1    url = 'https://api-tinyvideo-web.yy.com/home/tinyvideosv2'    params = {        'appId': 'svwebpc',        'sign': '',        'data': '{"uid":0,"page":%s,"pageSize":10}' % str(page),        '_': '1613628479737',    }    headers = {        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'    }    response = requests.get(url=url, params=params, headers=headers)    json_data = response.json()    result = json_data['data']['data']    for index in result:        video_url = index['resurl']        user_name = index['username']        new_title = change_title(user_name)        video_content = requests.get(url=video_url, headers=headers).content        with open('video\\' + new_title + '.mp4', mode='wb') as f:            f.write(video_content)            print(user_name)

"Python怎么爬取yy全站小视频"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站,小编将为大家输出更多高质量的实用文章!

0