导航：首页 > 开发技术 >

Python怎么用正则表达式实现爬取古诗文网站信息

发表于：2025-02-01 作者：千家信息网编辑

千家信息网最后更新 2025年02月01日，本篇内容介绍了"Python怎么用正则表达式实现爬取古诗文网站信息"的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能

千家信息网最后更新 2025年02月01日Python怎么用正则表达式实现爬取古诗文网站信息

本篇内容介绍了"Python怎么用正则表达式实现爬取古诗文网站信息"的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

分析古诗文网站

下图1展示了古诗文网站-》诗文栏目的首页数据。

第二页的地址是：https://so.gushiwen.cn/shiwens/default.aspx?page=2&tstr=&astr=&cstr=&xstr= 。依次类推第n页的地址就是page=n。其他不变。

1. 用正则表达式获取总页数

匹配的正则表达式是r'

.*?(.*?)'

首先，r修饰的字符串是原生字符串，首先匹配到
标签，然后再通过.*?匹配到里面的里面的标签标签等。这里. 可以匹配到任意的一个字符（换行符除外），* 号可以匹配0或者任意多个字符。? 号表示只能匹配到1个或者0个。这里加上?号是为了使用非贪婪模式。
通过匹配到存放总页数的标签。在标签里指定.*?
(.*?) 加上() 可以指定不同的分组，这里我们只需要获取页数所以就单独添加一个分组。

所以，最终的代码是：

 def get_total_pages():    resp = requests.get(first_url)    # 获取总页数    ret = re.findall(r'.*?(.*?)', resp.text, re.DOTALL)    result = re.search('\d+', ret[0])    for page_num in range(int(result.group())):        url = 'https://so.gushiwen.cn/shiwens/default.aspx?page=' + str(page_num)        parse_page(url)

在findall方法中传入re.DOTALL参数是为了是. 号可以匹配到换行符\n。

前面ret的结果是/ 5页。再获取5这个数字的话，还需要做一次匹配查找，这就是通过re.search('\d+', ret[0]) 来进行查找。

2. 提取诗的标题

如上图2展示了诗的标题的HTML源码，从中可以看出诗的标题被存在标签匹配诗的标题的正则表达式是

.*?(.*?)
首先还是匹配到
标签，接着就是匹配(.*?) 这里还是采用非贪婪模式来进行匹配。
3. 提取作者和朝代
如上图3展示了诗的作者和朝代的HTML源码，从中可以看出作者和朝代都是在
标签下的两个a标签中。
3.1 提取作者
提取作者的正则表达式是
.*?(.*?) 首先还是匹配到
标签。接着就是匹配第一个标签中的内容。
3.2 提取朝代
提取朝代的正则表达式是
.*?(.*?) 与提取作者不同的是多了一个，这是因为朝代在第二个标签中。
4. 提取诗的内容
如上图4展示了诗的内容的HTML源码，从中可以看出诗句都在
标签中，所以只需要匹配到这个标签里的内容即可。其正则表达式是
(.*?)
。
但是这样匹配出来的数据是包含
标签的。所以，我们需要通过sub 方法将这个标签替换掉。re.sub(r'<.*?>+', "", content)。
整理代码
至此，我们就将所有想要的数据都提取到了。接下来，我们还需要对数据进行处理。我们期望的最终数据格式是：
poems=[ { "title": '渔家傲·花底忽闻敲两桨', "author":'张三', 'dynasty':'唐朝', 'content':'xxxxxx' } { "title": '鹅鹅鹅', "author":'李四', 'dynasty':'唐朝', 'content':'xxxxxx' } ]
前面，我们分别得到了所有标题的列表titles；所有作者的列表authors；所有朝代的列表dynastys；所有诗句的列表contents。
那么，我们如何将这些列表组合成上面的那种形式呢？
这里，就需要用到 zip 函数了。该函数可以将多个列表组合成一个新的列表，其中列表的元素是元组。比如：
a=['name','age']b=['张三',18]c=zip(a,b)
调用zip 方法之后得到一个zip对象，该对象可以转换成list 对象。最终得到的结果如下图5
完整源代码
# -*- utf-8 -*-"""@url: https://blog.csdn.net/u014534808@Author: 码农飞哥@File: gushiwen_rep.py@Time: 2021/12/7 07:40@Desc: 用正则表达式爬取古诗文网站古诗文网站的地址：https://www.gushiwen.cn/"""import reimport requestsheaders = { 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36'}first_url = 'https://so.gushiwen.cn/shiwens/default.aspx'def get_total_pages(): resp = requests.get(first_url) # 获取总页数 ret = re.findall(r'
.*?(.*?)', resp.text, re.DOTALL) result = re.search('\d+', ret[0]) for page_num in range(int(result.group())): url = 'https://so.gushiwen.cn/shiwens/default.aspx?page=' + str(page_num) parse_page(url)# 解析页面def parse_page(url): resp = requests.get(url) text = resp.text # 提取标题 (.*) 进行分组，只提取标签中的内容,默认情况下 .不能匹配\n。加上re.DOTALL 表示.号可以匹配所有，贪婪模式 # titles = re.findall(r'.*(.*)', text,re.DOTALL) # 非贪婪模式 titles = re.findall(r'
.*?(.*?)', text, re.DOTALL) # 提取作者 authors = re.findall(r'
.*?(.*?)', text, re.DOTALL) # 提取朝代 dynastys = re.findall(r'
.*?(.*?)', text, re.DOTALL) # 提取诗句 content_tags = re.findall(r'
(.*?)
', text, re.DOTALL) contents = [] for content in content_tags: content = re.sub(r'<.*?>+', "", content) contents.append(content) poems = [] for value in zip(titles, authors, dynastys, contents): # 解包 title, author, dynasty, content = value poems.append( { "title": title, "author": author, 'dynasty': dynasty, 'content': content } ) print(poems) """ poems=[ { "title": '渔家傲·花底忽闻敲两桨', "author":'张三', 'dynasty':'唐朝', 'content':'xxxxxx' } { "title": '渔家傲·花底忽闻敲两桨', "author":'张三', 'dynasty':'唐朝', 'content':'xxxxxx' } ] """"""zip 函数a=['name','age']b=['张三',18]c=zip(a,b)c=[ ('name','张三'), ('age',18)]"""if __name__ == '__main__': get_total_pages()
最终的运行结果是：
"Python怎么用正则表达式实现爬取古诗文网站信息"的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站，小编将为大家输出更多高质量的实用文章！

很赞哦！

标签正则表达式作者朝代网站内容古诗古诗文标题张三数据页数贪婪字符就是模式上图从中函数数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全数据库中查询结果中第一列打开网站提示dns服务器不可用 app软件开发消失了打开数据库怎么设置示范区网络安全活动服务器管理工具英文网络安全指数计算无量纲化河北网络安全公众号下载发动机管理系统软件开发流程百姓部落互联网科技煤炭企业生产系统网络安全防护网络安全保障政务网络安全措施三个建筑物数据库英文怎么翻译南通通用软件开发流程默往软件开发多少钱疫情期间网络安全应急预案苹果手机如何更改收件服务器软件开发买什么笔记本数据库er模型总结做一个数据库系统的成本学子软件开发有限公司冲锋吧精灵怎么连接不上服务器全球最新数据库技术论文南通计算机网络技术包括什么网络安全法网络安全责任书国处数据库排名年度计划表软件开发云服务器安全观察济南联想服务器哪家是专业做的

扫描关注千家信息网微信公众号，第一时间获取内容更新动态

转载请说明来源于"千家信息网"

本文地址：https://www.qianjiagd.com/a16899

上一篇
Java类中的包是怎样的

本篇文章为大家展示了Java类中的包是怎样的，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。Java类中的包。Java应用是由若干个类组成的。但是从逻辑上考虑，

下一篇
AJAX.NET如何安装配置

这篇文章主要介绍了AJAX.NET如何安装配置，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。Ajax.NET安装配置：下载与安装首先从

相关文章

PHP中session会话操作技巧有哪些

PHP类相关知识点有哪些

VS2008无法直接查看STL值怎么办

php版微信公众平台之微信网页登陆授权的示例分析

中高级PHP程序员应该掌握什么技术

CI框架出现mysql数据库连接资源无法释放怎么办

ajax跨域访问报错501怎么办

什么是RPC框架

.net mvc超过了最大请求长度怎么办

php分页原理的示例分析

站长推荐

点击排行

recovery是什么意思?电脑开机重启显示recovery蓝屏怎么办

怎么在Linux中配置SSH和Xshell远程连接服务器

VS2008无法直接查看STL值怎么办

什么是RPC框架

.net mvc超过了最大请求长度怎么办

java怎么实现try/catch异常块

PHP中如何处理上传文件

php中require_once报错的解决方法

PHP如何编写学校网站上新生注册登陆程序

php中微信公众号开发模式的示例分析

在vmware esxi6.5中将硬盘驱动类型由HDD变为SSD类型

Vue中的匿名插槽与具名插槽是什么

vue3与vue2的区别以及vue3的API用法介绍

录制的横屏视频怎么变成全屏竖屏（录制的横屏怎么变竖屏）

qq群作业里为什么图片上传不了（qq群作业照片传不上去）

vscoder如何关闭错误提示

百度网盘PDF怎么转换成Word格式 PDF转Word操作教程

老年机号码拉黑怎么解除（老年机号码拉黑怎么解除）

京东以旧换新评估价和实际一样吗（京东以旧换新估价和成交价一样吗）

拼多多注销后可以重开新用户吗（拼多多注销后重开算新用户吗）

标签云

数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全数据库安全章节测试华大基因数据库安全性数据库es安全性测试工具数据库与云安全微生物安全数据库数据库个人信息安全吗安全数据库降级黑龙江数据库安全防护系统数据库安全性实验例题在国家公共安全数据库有记录

猜你喜欢

微信登录加载联系人失败怎么弄（微信加载联系人失败点击重试）

华为手机按键震动在哪设置关掉按键振动怎么取消方法

陌陌无限注册教程（怎么注册陌陌新号）

win10开机蓝屏终止代码SYSTEM_SERVICE_EXCEPTION的解决方法

微信看不到朋友圈不显示一条横线（微信看不到朋友圈只有一条横线）

VS2008无法直接查看STL值怎么办

快影怎么把视频弄成横屏播放制作方法分享

拼多多的多多支付怎么解绑银行卡（拼多多的多多支付怎么解绑银行卡）

怎么将苹果手机中录音发给好友 iPhone传语音文件方法教程

iis7.5中如何让html与shtml一样支持include功能