Python Scrapy爬虫框架如何使用
发表于:2025-02-04 作者:千家信息网编辑
千家信息网最后更新 2025年02月04日,本篇内容介绍了"Python Scrapy爬虫框架如何使用"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所
千家信息网最后更新 2025年02月04日Python Scrapy爬虫框架如何使用
本篇内容介绍了"Python Scrapy爬虫框架如何使用"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
1、项目创建
创建一个Scrapy项目非常简单,一般快速创建可以通过终端直接输入如下代码:
scrapy startproject zhuanti_new
如果要在不同的文件中创建此项目,就需要先找到对应的文件路径,当然你也可以通过pycharm,直接在对应的文件中,点击左下角终端进行创建,项目就直接在对应的项目文件中创建了一个Scrapy项目
2、Scrapy项目文件介绍
通过下面截图可以看到一个Scrapy项目有哪些文件,同时还需要创建和生成哪些文件,接下来逐一介绍。
(1)最顶层的zhuanti_new文件夹是Scrapy的项目名称
(2)第2层有4个文件:
第1个:和项目名称相同的文件,就是我们通常叫的爬虫包,所有的爬虫代码都在这个包里面
第2个:mian文件,是用来运行这个项目的主函数代码文件,代码写完后通过这个文件总体运行
第3个:配置文件,说明一下默认设置文件的位置为zhuanti_new模块下的settings文件,同时定义项目名称为:zhuanti_new
第4个:为存储爬取结果的txt文件
针对第一个文件里面的代码重点文件下面逐一介绍一下:
(1)items.py文件:定义爬虫抓取的字段信息
(2)pipelines.py文件:主要用于数据处理、清洗和存储
(3)settings.py:主要用于设置请求头、报警处理等相关问题
(4)zhuantispider.py文件:重点爬取数据过程的代码文件,也是新建立的文件
代码如下:
from zhuanti_new.items import ZhuantiNewItem
import scrapy
from scrapy.selector import Selector
class JianshuSpiderSpider(scrapy.Spider):
name = 'zhuantispider'
allowed_domains = ['jianshu.com']
start_urls = ['https://www.jianshu.com/recommendations/collections?page=1&order_by=hot']
#print(start_urls)
def parse(self, response):
'''解析外面页面'''
selector = Selector(response)
partical_urls = selector.re('
文件 项目 代码 爬虫 运行 名称 数据 结果 框架 接下来 信息 内容 可以通过 同时 就是 文章 更多 案例 知识 终端 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 国家网络安全人才培育中心项目 一个项目配几台服务器 软件开发基本描述 服务器的应用镜像是什么意思 人民网股票有网络安全概念吗 无线传感器网络网络安全图 hbn数据库是什么 网络安全处理方案 网络安全法制教育班会方案 方舟服务器改技能点 hana数据库下载 网络技术特别适用于 邢台电信大厦数据库 网络安全检查需要的资料 校园网络安全建设工作方案 网络安全 信息安全区别 服务器ip攻击 数据库根据小时分组 安徽省网络安全法 大富科技工业互联网平台 江苏专业服务器技术指导 网络技术革新周期 深圳科技互联网公司 软件开发营业税是多少 武汉大学网络安全大赛 预印本服务器arXiv上 服务器的高可用性 不同数据库服务器表连接 数据库安全包括哪几个层面的安全 win7音频服务器怎么打开