怎么用Python爬取电视剧所有剧情
发表于:2025-02-02 作者:千家信息网编辑
千家信息网最后更新 2025年02月02日,这篇"怎么用Python爬取电视剧所有剧情"文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这
千家信息网最后更新 2025年02月02日怎么用Python爬取电视剧所有剧情
这篇"怎么用Python爬取电视剧所有剧情"文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇"怎么用Python爬取电视剧所有剧情"文章吧。
【示例代码】
# coding=utf-8
# @Auther : 鹏哥贼优秀
# @Date : 2019/8/7
from bs4 import BeautifulSoup
import requests
import getheader
# 获取每一集对应的标题及对应的界面URL关键地址
def get_title():
url = "https://www.tvsou.com/storys/0d884ba0dd/"
headers = getheader.getheaders()
r = requests.get(url, headers=headers)
r.encoding = "utf-8"
soup = BeautifulSoup(r.text, "lxml")
temps = soup.find("ul", class_="m-l14 clearfix episodes-list teleplay-lists").find_all("li")
tempurllist = []
titlelist = []
for temp in temps:
tempurl = temp.a.get("href")
title = temp.a.get("title")
tempurllist.append(tempurl)
titlelist.append(title)
return tempurllist, titlelist
# 下载长安十二时辰的第x集之后所有剧情,默认从第一集开始下载。
def Changan(episode=1):
tempurllist_b, titlelist_b = get_title()
tempurllist = tempurllist_b[(episode - 1):]
titlelist = titlelist_b[(episode - 1):]
baseurl = "https://www.tvsou.com"
for i, tempurl in enumerate(tempurllist):
print("正在下载第{0}篇".format(str(i + episode)))
url = baseurl + tempurl
r = requests.get(url, headers=getheader.getheaders())
r.encoding = "utf-8"
soup = BeautifulSoup(r.text, "lxml")
result = soup.find("pre", class_="font-16 color-3 mt-20 pre-content").find_all("p")
content = []
for temp in result:
if temp.string:
content.append(temp.string)
with open("test.txt", "a") as f:
f.write(titlelist[i] + "\n")
f.writelines(content)
f.write("\n")
if __name__ == "__main__":
Changan(43)
【效果如下】
【知识点】
1、怎么自动获取每一集对应的URL地址?
先查看第一集的爬取内容,发现在响应中有一段各剧集的信息,如下图:
从这段响应消息中可以看到,每一集对应了一个href,然后第一集的URL地址中"https://www.tvsou.com/storys/0d884ba0dd/"刚好有部分URL地址与href一致。然后再验证了下第二集URL,发现的确就是对应的href。因此就得到了如何自动获取各集URL地址的方式。
2、如何爬取每一集的剧情内容呢?
以第一集为例,在响应中可以看到这样一段内容。
在class_="font-16 color-3 mt-20 pre-content"标签内,就有剧情内容。但是由于这段响应中有多个p标签,每个p标签对应一段内容。因此需要对每个p标签进行text提取。并且由于第一个p标签是
,因此需要进行非空判断。以上就是关于"怎么用Python爬取电视剧所有剧情"这篇文章的内容,相信大家都有了一定的了解,希望小编分享的内容对大家有帮助,若想了解更多相关的知识内容,请关注行业资讯频道。
内容
剧情
地址
标签
电视
电视剧
知识
就是
文章
知识点
篇文章
utf-8
优秀
一致
代码
价值
信息
关键
多个
大部分
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
服务器网络设置开关
网络安全检查评分标准
华为网络技术实验室
攻城略地服务器选择
江苏浪潮服务器租用
数据库基础实验课心得体会
江财数据库实验九
报表复制数据库
数据库技术开发
潮州网站建设数据库
无线网络技术应用现状
amd服务器cpu二手
网络技术的研发是什么意思
网络安全要注意英文
百度实时路况数据来源是网络技术
北京健康在线网络技术开发公司
赛勤软件开发流程
海康服务器管理口密码
手游方舟服务器招管理员
停车场收费管理数据库
饥荒专用服务器管理权限
3g手机软件开发平台
数据库修改视图使用
数据库表怎么添加指定一列
软件开发的工具有哪些
手机数据库错误
linux管理服务器的命令
高新区正规网络技术专业服务
嵌入式软件开发 工作描述
中粮集团网络安全2020年