怎么用python爬取世界大学排行数据
发表于:2025-02-23 作者:千家信息网编辑
千家信息网最后更新 2025年02月23日,今天小编给大家分享一下怎么用python爬取世界大学排行数据的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面
千家信息网最后更新 2025年02月23日怎么用python爬取世界大学排行数据
今天小编给大家分享一下怎么用python爬取世界大学排行数据的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。
数据获取
我们这里选取的就是上海交通大学的 ARWU 网站
该网站包含了历年的大学分数以及排名情况。
通过分析页面可以发现,通过 pandas 的 read_html 函数来获取相关信息是最为方便的
table = pd.read_html(url)
college = table[0]
同时我们还发现,大学所对应的国家数据是图片,所以需要特殊处理下
def get_country_name(html):
soup = BeautifulSoup(html,'lxml')
countries = soup.select('td > a > img')
lst = []
for i in countries:
src = i['src']
pattern = re.compile('flag.*/(.*?).png')
country = re.findall(pattern,src)[0]
lst.append(country)
return lst
最后我们把得到的数据进行下处理,去除掉不需要的字段,再增加年份字段等
for i in range(2005, 2020):
print('year', i)
url = 'http://www.shanghairanking.com/ARWU%s.html' % i
html = requests.get(url).content
table = pd.read_html(url)
college = table[0]
college.columns = ['world rank','university', 2,3, 'score', 5]
college.drop([2,3,5],axis = 1,inplace = True)
college['year'] = i
college['index_rank'] = college.index
college['index_rank'] = college['index_rank'].astype(int) + 1
college['country'] = get_country(html)
college.to_csv(r'College.csv', mode='a', encoding='utf_8_sig', header=True, index=0)
这样,我们就得到了 College.csv 文件
以上就是"怎么用python爬取世界大学排行数据"这篇文章的所有内容,感谢各位的阅读!相信大家阅读完这篇文章都有很大的收获,小编每天都会为大家更新不同的知识,如果还想学习更多的知识,请关注行业资讯频道。
大学
数据
知识
篇文章
世界
内容
字段
就是
网站
处理
不同
很大
特殊
交通
信息
函数
分数
历年
同时
国家
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
戴尔r200服务器说明书
高斯数据库是开放的吗
阿里云服务器如何修改密码
沧州网络技术哪家强
数据库服务器内存分析
不属于客户服务器系统
生动的网络技术视频
编程应用软件开发
天津腾跃网络技术公司
服务器错误日志怎么看
java软件开发的现状
上海仓豆网络技术有限公司
删除数据库表数据6
网络安全知总结
软件开发 上海好 还是无锡好
软件开发硬盘多大
饥荒怎么开一个好的服务器
私人电脑能做游戏服务器吗
韩城市委网络安全
大竹县安宜软件开发有限公司
英雄联盟服务器盘点
虚拟服务器和虚拟机
庐阳区服务管理软件开发
网络安全致家长信
物联网如何设置网络安全
网络安全检查工作方案和计划
监控的网络安全
川哥金融互联网科技
韩城市委网络安全
数据库安全加密的好处