Python如何进行包图网免费付费素材爬取
发表于:2024-12-12 作者:千家信息网编辑
千家信息网最后更新 2024年12月12日,这期内容当中小编将会给大家带来有关Python如何进行包图网免费付费素材爬取,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。包图网大家都知道吧 集齐海量设计素材 十分
千家信息网最后更新 2024年12月12日Python如何进行包图网免费付费素材爬取
这期内容当中小编将会给大家带来有关Python如何进行包图网免费付费素材爬取,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
包图网大家都知道吧 集齐海量设计素材 十分好用 可惜太贵了,今天就带大家使用Python-爬虫爬取这些素材并且保存到本地!
抓取一个网站的内容,我们需要从以下几方面入手:
1-如何抓取网站的下一页链接?
2-目标资源是静态还是动态(视频、图片等)
3-该网站的数据结构格式
源代码如下
import requestsfrom lxml import etreeimport threading class Spider(object): def __init__(self): self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"} self.offset = 1 def start_work(self, url): print("正在爬取第 %d 页......" % self.offset) self.offset += 1 response = requests.get(url=url,headers=self.headers) html = response.content.decode() html = etree.HTML(html) video_src = html.xpath('//div[@class="video-play"]/video/@src') video_title = html.xpath('//span[@class="video-title"]/text()') next_page = "http:" + html.xpath('//a[@class="next"]/@href')[0] # 爬取完毕... if next_page == "http:": return self.write_file(video_src, video_title) self.start_work(next_page) def write_file(self, video_src, video_title): for src, title in zip(video_src, video_title): response = requests.get("http:"+ src, headers=self.headers) file_name = title + ".mp4" file_name = "".join(file_name.split("/")) print("正在抓取%s" % file_name) with open('E://python//demo//mp4//'+file_name, "wb") as f: f.write(response.content) if __name__ == "__main__": spider = Spider() for i in range(0,3): # spider.start_work(url="https://ibaotu.com/shipin/7-0-0-0-"+ str(i) +"-1.html") t = threading.Thread(target=spider.start_work, args=("https://ibaotu.com/shipin/7-0-0-0-"+ str(i) +"-1.html",)) t.start()
效果展示
上述就是小编为大家分享的Python如何进行包图网免费付费素材爬取了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注行业资讯频道。
素材
内容
网站
正在
分析
专业
中小
内容丰富
动态
图片
就是
效果
数据
数据结构
文章
方面
更多
格式
源代码
爬虫
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
交口县国家网络安全宣传
网络安全社会焦点
对网络安全法第二十三条的认识
进一步提高网络安全
博途plc时间同步到服务器
中国第一部网络安全的
台州财务软件开发
滨州软件开发
上海唔噻互联网科技
守望先锋无法连接游戏服务器
网络安全审查流程包括依法
睿雄互联网科技公司名称
网络安全公司邦邦
物理服务器迁移到虚拟机存储空间
帆软怎么把文档设置成数据库
知网数据库是多少个
票房统计多少天的数据库
北京网络安全认证费用多少
柳州工学院图书数据库有哪些
长沙网络安全会议峰会
数据库的基本操作命令
软件开发客服好做吗
网络安全的有效性评审
网络安全法是提供技术
路由器选哪个服务器最好
云服务器网络拓扑图
3月1日加强网络安全防范的措施
如何设置sql服务器
湖北串口服务器多少钱
甘肃网络安全宣传音乐