千家信息网

Python怎么爬取图片之家

发表于:2025-01-31 作者:千家信息网编辑
千家信息网最后更新 2025年01月31日,本篇内容主要讲解"Python怎么爬取图片之家",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"Python怎么爬取图片之家"吧!前言模拟浏览器请求并获取网站
千家信息网最后更新 2025年01月31日Python怎么爬取图片之家

本篇内容主要讲解"Python怎么爬取图片之家",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"Python怎么爬取图片之家"吧!

前言

  • 模拟浏览器
    请求并获取网站数据
    在原始数据中提取我们想要的数据 数据筛选
    将筛选完成的数据做保存

完成一个爬虫需要哪些工具

  • Python3.6

  • pycharm 专业版

目标网站

图片之家

https://www.tupianzj.com/

爬虫代码

导入工具

python 自带的标准库

import ssl

系统库 自动创建保存文件夹

import os

下载包

import urllib.request

网络库 第三方包

import requests

网页选择器

from bs4 import BeautifulSoup

默认请求https网站不需要证书认证

ssl._create_default_https_context = ssl._create_unverified_context

模拟浏览器

headers = {    'User-Agent':        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',}

自动创建文件夹

if not os.path.exists('./插画素材/'):    os.mkdir('./插画素材/')else:    pass

请求操作

url = 'https://www.tupianzj.com/meinv/mm/meizitu/'html = requests.get(url, headers=headers).text

对页面原始数据做数据提取

soup = BeautifulSoup(html, 'lxml')images_data = soup.find('ul', class_='d1 ico3').find_all_next('li')for image in images_data:    image_url = image.find_all('img')    for _ in image_url:        print(_['src'], _['alt'])

下载

try:    urllib.request.urlretrieve(_['src'], './插画素材/' + _['alt'] + '.jpg')except:    pass

到此,相信大家对"Python怎么爬取图片之家"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

数据 之家 图片 网站 插画 素材 原始 内容 工具 文件 文件夹 浏览器 爬虫 学习 浏览 实用 更深 专业 代码 兴趣 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 深圳软件开发cto年薪一般多少 局域网服务器上网 nosql类型数据库 网络安全拓步图工作指南 白皮调色软件开发 关于网络安全的作文五篇 网络服务器安全构建实验报告 网络安全对编程要求高吗 数据库varchar 默认值 茂名有软件开发吗 数据库删了数据提交后还能恢复么 北京聚博网络技术有限公司 网络安全可以向哪些部门举报 access数据库中_窗体 饥荒steam专用服务器 pandas 前n行数据库 访问数据库需要对象序列化吗 高端娱乐软件开发 性价比好的数据库防泄露 深圳小学网络安全防范 高可用可扩展网络技术实例 广东省中医院服务器 通过搜索查关键字 网络安全 数据库管理信息的特征 网络服务器机房哪个牌子好 静安区一站式软件开发技术指导 湖州炬燃网络技术有限公司 网络安全可以向哪些部门举报 境界北京网络技术股份 学软件开发比较好的专科学校
0