Python如何爬取首都医科大学文章
发表于:2024-09-22 作者:千家信息网编辑
千家信息网最后更新 2024年09月22日,这篇文章主要讲解了"Python如何爬取首都医科大学文章",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"Python如何爬取首都医科大学文章"吧!概述爬
千家信息网最后更新 2024年09月22日Python如何爬取首都医科大学文章
这篇文章主要讲解了"Python如何爬取首都医科大学文章",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"Python如何爬取首都医科大学文章"吧!
概述
爬虫项目实践
目标:首都医科大学官网新发文章
步骤
请求网址
通过正则表达式提取数据
分析数据
代码
# 导入模块# 用于请求网址import requests# 用于解析网页源代码from bs4 import BeautifulSoup# 用于正则import re# 目标网址# 设置页数,提取10页的数据page=['']for i in range(1,10,1): page.append(i)# 保存文件with open(r'ccmu.csv','a',encoding='utf-8') as f: for i in page: url= 'http://www.ccmu.edu.cn/zxkylw_12912/index'+str(i)+'.htm' # 必要时添加header请求头,防止反爬拦截 headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:79.0) Gecko/20100101 Firefox/79.0' } # 目标网址请求方式为get resp=requests.get(url) html = resp.content.decode('utf-8') # 解析html soup = BeautifulSoup(html,'html.parser') # 找到最近发表的sci论文 # 使用find和find_all 函数 infos=soup.find('ul',{'class':'list03'}).find_all('li') for info in infos: time=info.find('span').get_text() ajt= info.find('a').get_text() # 写入文件 f.write("{},{}\n".format(time,ajt))
感谢各位的阅读,以上就是"Python如何爬取首都医科大学文章"的内容了,经过本文的学习后,相信大家对Python如何爬取首都医科大学文章这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是,小编将为大家推送更多相关知识点的文章,欢迎关注!
文章
医科
首都
大学
首都医科大学
网址
数据
目标
学习
内容
文件
正则
实践
必要
代码
函数
就是
思路
情况
数据分析
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
和平精英的服务器和设备
excel数据库临时存储
刺客信条服务器目前不可用
计算机数据库大题
信息化网络安全工程平台资质
数据库查找包括某关键字
打印机服务器总是自己停止
肇庆聊天软件开发市场价
数据库技术与应用硕士
ssm的用的数据库技术
12部门联合发文网络安全办法
落实网络安全周
江西浪潮服务器维修技术虚拟主机
服务器租用价格恒创)
数据库集合随机取数
机械服务器
疫情期间小学生线上学习网络安全
如何数据库缓存清理
htmlt+打印数据库
veristand软件开发
中国网络安全中心是什么
软件调试对软件开发的意义
单机剑灵2.5客户端服务器下载
专业的数据库网站建设
使用iis管理web服务器
各城市软件开发需求榜
服务器运维进阶
乐山软件开发软件
mysql导出数据库设计文档
数据库文件管理员密码