如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地
发表于:2025-02-06 作者:千家信息网编辑
千家信息网最后更新 2025年02月06日,这篇文章主要为大家展示了"如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"
千家信息网最后更新 2025年02月06日如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地
这篇文章主要为大家展示了"如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地"这篇文章吧。
每次当你爬取一篇文章时,不管是从csdn或者其他网站,基本内容都是保存在一个富文本编辑器中,将内容提取出来还是一个html,保存之后图片还在别人的图片服务器上。我今天要说的就是将图片保存之后并将它的src属性替换成本地的地址。并且以次替换,按照原文章排版顺序替换。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2018/11/5 15:06
# @Author : jia.zhao
# @Desc :
# @File : img_test.py
# @Software: PyCharm
import urllib.request
import re
def getHtml(url):
# 通过urllib去请求
page = urllib.request.urlopen(url)
# 读取页面内容
html = page.read()
return html
def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
# Python3需要加的
html = html.decode('utf-8')
# 找到所有匹配项
imglist = re.findall(imgre, html)
x = 0
# 循环
for i in range(len(imglist)):
# 保存图片
# urllib.request.urlretrieve(imgurl, 'img/%s.jpg' % x)
# 根据每个图片的src的内容进行替换
html = re.sub(imglist[i], "G:/pachong/img/%s.jpg" % str(i), html)
x += 1
print(html)
html = getHtml("http://tieba.baidu.com/p/2460150866")
print(getImg(html))
这个demo知识贴吧的一个帖子里的图片,大家可以依据自己的需求去更改此代码。
以上是"如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!
图片
内容
属性
网站
并将
篇文章
文章
知识
学习
帮助
代码
原文
地址
就是
帖子
文本
易懂
更多
服务器
条理
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
线程如何共享数据库连接
网络安全实验报告多春红
浦东新区网络技术应用
数据库完整性 技术
服务器登陆不了
数据库 地图定位
网络安全基本不包括
网络安全通用漏洞排名
计算机网络安全技术第四版
ipv9的服务器
服务器与网络通信设备
昆明综合软件开发直销价
清明服务器
闽南师范有软件开发吗
vs 向文本输入数据库
oracle 数据库挂载
赛尔号怎么看服务器在线玩家
CF绿色服务器每天都一样
保护数据平面 网络技术
软件开发性能测试题
苹果充抖币显示苹果服务器异常
剑与远征选经典服务器还是大区
大连大学数据库应用技术怎么样
sql创建图书馆管理数据库
QQ三国服务器在哪个省
软件开发 迭代准备
lT和软件开发之间关系
2018国内网络安全现状
国家网络安全的含义是什么
东方财富服务器在哪个城市