Python爬虫中如何抓取名人名言网站
发表于:2025-01-21 作者:千家信息网编辑
千家信息网最后更新 2025年01月21日,这篇文章主要介绍Python爬虫中如何抓取名人名言网站,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!1、输入网址quotes.toscrape.com/,进入网站首页,观察网页
千家信息网最后更新 2025年01月21日Python爬虫中如何抓取名人名言网站
这篇文章主要介绍Python爬虫中如何抓取名人名言网站,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
1、输入网址
quotes.toscrape.com/,进入网站首页,观察网页的结构,我们发现网页的内容很清晰,
主要分为:名人名言,作者,标签三个主要字段,同时三个字段的内容为本次提取的内容。
2、确定需求,分析网页结构
打开开发者工具,点击networ进行网络数据抓包分析,网站是以get方式进行请求,不需要携带参数,那我们就可以以request请求库中的get()方法,进行模拟请求,需要带上headers请求,模拟浏览器信息验证,防止被网站服务器检测为爬虫请求。
也可以点击开发者工具的最左边小箭头,可以帮助我们快速定位,网页数据在element标签页所在的位置。
3、解析网页结构,提取数据。
请求成功之后,可以开始提取数据啦~,我用的是xpath的解析方法,所以,先来解析xpath页面,点击最左边小箭头,可以帮助我们快速定位数据所,网页数据在element标签页所在的位置.因为网页的请求方式数据以列表的方式逐条排序,所以我们可以先定位整个列表的数据。在通过lxm中html解析器,逐个字段抓取并保存至列表,方便下一步的数据清洗。
4、保存至csv文件
源码分享
import requestsfrom lxml import etreeimport csv url = "https://quotes.toscrape.com/"headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'} res = requests.get(url,headers = headers).text html = etree.HTML(res) queto_list = html.xpath('//div[@class="col-md-8"]') lists = [] for queto in queto_list: # 名言正文 title = queto.xpath('./div[@class="quote"]/span[1]/text()') # 作者 authuor = queto.xpath('./div[@class="quote"]/span[2]/small/text()') # 名言标签 tags = queto.xpath('./div[@class="quote"]/div[@class="tags"]/a[@class="tag"]/text()') # 将数据统一添加进列表中保存 lists.append(title) lists.append(authuor) lists.append(tags) with open("./名人名言.csv",'w',encoding='utf-8',newline='\n') as f: writer = csv.writer(f) for i in lists: writer.writerow(x)
以上是"Python爬虫中如何抓取名人名言网站"这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注行业资讯频道!
数据
网页
名言
网站
内容
名人
名人名言
标签
爬虫
字段
方式
结构
定位
帮助
三个
位置
作者
工具
开发者
所在
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
计算机网络技术专业考哪些证
华辰软件开发科技有限公司
山东省网络安全专委会
软件开发去什么国有企业
嗨云服务器
华为计算机网络技术薪资
数据库分析时遇到的问题
网络技术大学排名榜单
网络技术发展报告
国家数据库查询核酸
数据库主键为什么不能为空
支付给境外软件开发费
主营业务 软件开发
sql数据库怎么建立关系
信创数据库招标参数
搭建域服务器
mc遗忘之地服务器
网络安全控制是
如何连接服务器平板
个人软件开发年度开发总结
烈焰单机数据库
数据库错误码1110
软件开发与测试维修
石林县民族古籍数据库平台
星鼎源杭州网络技术
金风科技 能源互联网产品
服务器补给
企业邮箱服务器地址是什么
抖音换头像显示服务器升级怎么办
搞软件开发的都在做什么