千家信息网

怎么正确使用Scrapy自带的FilesPipeline

发表于:2025-01-19 作者:千家信息网编辑
千家信息网最后更新 2025年01月19日,这篇文章主要讲解了"怎么正确使用Scrapy自带的FilesPipeline",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"怎么正确使用Scrapy自带
千家信息网最后更新 2025年01月19日怎么正确使用Scrapy自带的FilesPipeline

这篇文章主要讲解了"怎么正确使用Scrapy自带的FilesPipeline",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"怎么正确使用Scrapy自带的FilesPipeline"吧!

Scrapy自带的 FilesPipeline和ImagesPipeline用来下载图片和文件非常方便,根据它的官方文档[1]说明,我们可以很容易地开启这两个 Pipeline。

如果只是要下载图片,那么用 FilesPipeline 和 ImagesPipeline 都可以,毕竟图片也是文件。但因为使用 ImagesPipeline 要单独安装第三方库 Pillow,所以我们以 FilesPipeline 为例来进行说明。

假设爬虫通过解析网页的源代码,获取到了一张图片,图片的地址为:https://kingname-1257411235.cos.ap-chengdu.myqcloud.com/640.gif 当然,png 、 jpg 、甚至 rar、pdf、zip 都可以。

为了使用 Scrapy 自带的 FilesPipeline来下载这张图片,我们需要做几步设置。

定义 items

首先定义任意一个 items,需要确保这个 items 里面,必须包含file_urls字段和files字段,除了这两个必备字段外,你还可以任意增加其他字段。


启动FilesPipeline

在settings.py中,找到 ITEM_PIPELINES配置,如果它被注释了,那么就解除注释。然后添加如下的配置:

'scrapy.pipelines.files.FilesPipeline': 1

再添加一个配置项FILES_STORE,它的值是你想要保存图片的文件夹地址。

修改以后如下图所示:

下载图片

接下来,就进入到我们具体的爬虫逻辑中了。在爬虫里面,你在任意一个 parse 函数中提取到了一张或者几张图片的URL 后,把它(们)以列表的形式放入到 item 里面的 file_urls 字段中。如下图所示。

注意,此时files字段不需要设置任何的值。其他非必需字段就根据你的需求只有设置即可。

获取结果

由于我们设置了scrapy.pipelines.images.FilesPipeline的优先级为1,是最高优先级,所以它会比所有其他的 Pipeline 更先运行。于是,我们可以在后面的其他Pipeline 中,检查 item 的 files 字段,就会发现我们需要的图片地址已经在里面了。如下图所示:

item 中的 files 字段变成了一个包含字典的列表。字典中有一项叫做path的 Key,它的值就是图片在电脑上的路径,例如full/7f471f6dbc08c2db39125b20b0471c3b21c58f3e.gif表示在images文件夹中的full文件夹中的7f471f6dbc08c2db39125b20b0471c3b21c58f3e.gif文件,如下图所示:

文件名是该文件的 md5值,如果你想重命名,可以在后续的 pipeline 中,根据 path 的值找到文件,然后修改名字。

修改请求头

看到这里,大家会不会有一个疑问,在使用FilesPipeline的时候,Scrapy 会加上请求头吗?它会用哪一个请求头呢?

实际上,Scrapy 在使用 FilesPipeline和ImagesPipeline时,是不会设置请求头的。如果网站会监控请求图片或者文件的请求的请求头,那么就可以立刻发现这个请求是通过 Scrapy 发起的。

为了证明这一点,我们可以查看FilesPipeline的源代码:

在 scrapy/pipelines/files.py文件中,可以看到,FilesPipeline是通过get_media_requests方法来构造对图片的请求对象的。这个请求对象没有设置任何的请求头。

上面的截图是老版本的 Scrapy 的源代码。新版本的源代码里面,get_media_requests可能是这样的:

def get_media_requests(self, item, info):     urls = ItemAdapter(item).get(self.files_urls_field, [])     return [Request(u) for u in urls]

为了手动加上请求头,我们可以自己写一个 pipeline,继承FilesPipeline但覆盖get_media_requests方法,如下图所示:

注意,在实际使用中,你可能还要加上 Host 和 Referer。

然后修改settings.py中的ITEM_PIPELINES,指向我们自定义的这个pipeline:

这样一来,FilesPipeline就能够正确加上请求头了。

感谢各位的阅读,以上就是"怎么正确使用Scrapy自带的FilesPipeline"的内容了,经过本文的学习后,相信大家对怎么正确使用Scrapy自带的FilesPipeline这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是,小编将为大家推送更多相关知识点的文章,欢迎关注!

图片 文件 字段 源代码 地址 文件夹 爬虫 学习 配置 两个 优先级 内容 字典 实际 对象 就是 方法 注释 面的 最高 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 萤石监控服务器老响声是什么问题 涿州市云朵软件开发 网络技术开发货源充足 速达软件数据库密码 阿里云服务器动态扩容 中学生网络安全教学稿 二手hp服务器多少钱 删除数据库中包含某个中文的数据 ie浏览器服务器拒绝连接 抵制网络安全六年级手抄报 数据库中查找相同元组的运算 海南亿程网络技术有限公司 怎么样用数据库做测试 网络安全精美手抄报内容 苏州工业软件开发哪家专业 苏州国际电商软件开发 图数据库数据存储方法 网络安全设备巡检工作 江西省软件开发标准人天价格 索引数据库主要提供的是 网络安全集成如何做 网络安全知识有奖答题结果 2019网络安全考shi 数据库的数据和关系 苏州高科技软件开发注意事项 云计算面向软件开发者 oracle数据库迁移步骤 完整数据库语言权限 网络安全风险评估 学电脑软件开发出来好找工作
0