Python爬虫中如何抓取名人名言网站
发表于:2024-09-21 作者:千家信息网编辑
千家信息网最后更新 2024年09月21日,这篇文章主要介绍Python爬虫中如何抓取名人名言网站,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!1、输入网址quotes.toscrape.com/,进入网站首页,观察网页
千家信息网最后更新 2024年09月21日Python爬虫中如何抓取名人名言网站
这篇文章主要介绍Python爬虫中如何抓取名人名言网站,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
1、输入网址
quotes.toscrape.com/,进入网站首页,观察网页的结构,我们发现网页的内容很清晰,
主要分为:名人名言,作者,标签三个主要字段,同时三个字段的内容为本次提取的内容。
2、确定需求,分析网页结构
打开开发者工具,点击networ进行网络数据抓包分析,网站是以get方式进行请求,不需要携带参数,那我们就可以以request请求库中的get()方法,进行模拟请求,需要带上headers请求,模拟浏览器信息验证,防止被网站服务器检测为爬虫请求。
也可以点击开发者工具的最左边小箭头,可以帮助我们快速定位,网页数据在element标签页所在的位置。
3、解析网页结构,提取数据。
请求成功之后,可以开始提取数据啦~,我用的是xpath的解析方法,所以,先来解析xpath页面,点击最左边小箭头,可以帮助我们快速定位数据所,网页数据在element标签页所在的位置.因为网页的请求方式数据以列表的方式逐条排序,所以我们可以先定位整个列表的数据。在通过lxm中html解析器,逐个字段抓取并保存至列表,方便下一步的数据清洗。
4、保存至csv文件
源码分享
import requestsfrom lxml import etreeimport csv url = "https://quotes.toscrape.com/"headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'} res = requests.get(url,headers = headers).text html = etree.HTML(res) queto_list = html.xpath('//div[@class="col-md-8"]') lists = [] for queto in queto_list: # 名言正文 title = queto.xpath('./div[@class="quote"]/span[1]/text()') # 作者 authuor = queto.xpath('./div[@class="quote"]/span[2]/small/text()') # 名言标签 tags = queto.xpath('./div[@class="quote"]/div[@class="tags"]/a[@class="tag"]/text()') # 将数据统一添加进列表中保存 lists.append(title) lists.append(authuor) lists.append(tags) with open("./名人名言.csv",'w',encoding='utf-8',newline='\n') as f: writer = csv.writer(f) for i in lists: writer.writerow(x)
以上是"Python爬虫中如何抓取名人名言网站"这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注行业资讯频道!
数据
网页
名言
网站
内容
名人
名人名言
标签
爬虫
字段
方式
结构
定位
帮助
三个
位置
作者
工具
开发者
所在
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
好玩的我的世界服务器矿场
园区信用联盟数据库
学校微机实验室服务器可以不开吗
服务器背包修改器
qq怎么将消息同步服务器
电信校招网络技术笔试题
生成数据库迁移的命令是
软件开发申请商标多少类
国内最大的软件开发上市公司
镇妖服务器仙灵幻境4
手机软件开发需要哪些技术
杭州r7525服务器方案
成都居家养老服务软件开发
无网络安全有关的小品
智能汽车网络安全隐患
南海软件开发定制
培训机构网络技术教学
云计算和网络安全哪个好就业
深圳市排队网络技术
src全称网络安全
江苏信息网络安全协会副理事长
数据库用户账号密码
华硕4u服务器
网络安全 消费无忧
数据库.db文件查看器
双宇网络技术有限公司
网络技术经历了电子邮件
速达财务软件数据库如何下载
数据库怎么把库发给别人
有迷你玩家的mc服务器