Python怎么爬取漫画图片
发表于:2024-11-20 作者:千家信息网编辑
千家信息网最后更新 2024年11月20日,这篇文章主要介绍了Python怎么爬取漫画图片,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。开发环境:Python 3.6Pychar
千家信息网最后更新 2024年11月20日Python怎么爬取漫画图片
这篇文章主要介绍了Python怎么爬取漫画图片,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。
开发环境:
Python 3.6
Pycharm
目标地址
https://www.dmzj.com/info/yaoshenji.html
代码
导入工具
import requestsimport osimport refrom bs4 import BeautifulSoupfrom contextlib import closingfrom tqdm import tqdmimport time
获取动漫章节链接和章节名
r = requests.get(url=target_url)bs = BeautifulSoup(r.text, 'lxml')list_con_li = bs.find('ul', class_="list_con_li")cartoon_list = list_con_li.find_all('a')chapter_names = []chapter_urls = []for cartoon in cartoon_list: href = cartoon.get('href') name = cartoon.text chapter_names.insert(0, name) chapter_urls.insert(0, href)print(chapter_urls)
下载漫画
for i, url in enumerate(tqdm(chapter_urls)): print(i,url) download_header = { 'Referer':url, 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36' } name = chapter_names[i] # 去掉. while '.' in name: name = name.replace('.', '') chapter_save_dir = os.path.join(save_dir, name) if name not in os.listdir(save_dir): os.mkdir(chapter_save_dir) r = requests.get(url=url) html = BeautifulSoup(r.text, 'lxml') script_info = html.script pics = re.findall('\d{13,14}', str(script_info)) for j, pic in enumerate(pics): if len(pic) == 13: pics[j] = pic + '0' pics = sorted(pics, key=lambda x: int(x)) chapterpic_hou = re.findall('\|(\d{5})\|', str(script_info))[0] chapterpic_qian = re.findall('\|(\d{4})\|', str(script_info))[0] for idx, pic in enumerate(pics): if pic[-1] == '0': url = 'https://images.dmzj.com/img/chapterpic/' + chapterpic_qian + '/' + chapterpic_hou + '/' + pic[ :-1] + '.jpg' else: url = 'https://images.dmzj.com/img/chapterpic/' + chapterpic_qian + '/' + chapterpic_hou + '/' + pic + '.jpg' pic_name = 'd.jpg' % (idx + 1) pic_save_path = os.path.join(chapter_save_dir, pic_name) print(url) response = requests.get(url,headers=download_header) # with closing(requests.get(url, headers=download_header, stream=True)) as response: # chunk_size = 1024 # content_size = int(response.headers['content-length']) print(response) if response.status_code == 200: with open(pic_save_path, "wb") as file: # for data in response.iter_content(chunk_size=chunk_size): file.write(response.content) else: print('链接异常') time.sleep(2)
创建保存目录
save_dir = '妖神记'if save_dir not in os.listdir('./'): os.mkdir(save_dir)target_url = "https://www.dmzj.com/info/yaoshenji.html"
感谢你能够认真阅读完这篇文章,希望小编分享的"Python怎么爬取漫画图片"这篇文章对大家有帮助,同时也希望大家多多支持,关注行业资讯频道,更多相关知识等着你来学习!
篇文章
漫画
图片
漫画图片
章节
链接
代码
价值
兴趣
动漫
同时
地址
工具
更多
朋友
环境
目录
目标
知识
编带
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
酷酷跑服务器下载
软件开发的运行维护阶段
咸宁市网络安全宣教
网络安全实用技术期末考
车商通互联网科技有限公司
莱山区安卓软件开发公司有哪些
网络安全市场发展前景
iis 数据库上传限制
服务器不显示时间
国外数据库有哪几个
软件开发过程中黑和白盒
酶中文数据库
共筑网络安全封面
软件开发需要规范端口吗
国家网络安全中心陕西分中心
dw是什么意思网络技术
掌合天下网络技术服务
西青区节能软件开发报价技术规范
水电厂dcs网络安全建设
qq为什么会服务器错误
我的世界手机版轻轨服务器
pc客户端软件开发
福州市网络安全等级备案怎么办理
最近很火的网络安全文案
软件开发有几种开发环境
网络技术实训报告网线
湖北第三方软件开发有用吗
世界时间服务器
千锋网络安全中国菜刀
读数据库排序