怎么用python爬取世界大学排行数据
发表于:2025-01-22 作者:千家信息网编辑
千家信息网最后更新 2025年01月22日,今天小编给大家分享一下怎么用python爬取世界大学排行数据的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面
千家信息网最后更新 2025年01月22日怎么用python爬取世界大学排行数据
今天小编给大家分享一下怎么用python爬取世界大学排行数据的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。
数据获取
我们这里选取的就是上海交通大学的 ARWU 网站
该网站包含了历年的大学分数以及排名情况。
通过分析页面可以发现,通过 pandas 的 read_html 函数来获取相关信息是最为方便的
table = pd.read_html(url)
college = table[0]
同时我们还发现,大学所对应的国家数据是图片,所以需要特殊处理下
def get_country_name(html):
soup = BeautifulSoup(html,'lxml')
countries = soup.select('td > a > img')
lst = []
for i in countries:
src = i['src']
pattern = re.compile('flag.*/(.*?).png')
country = re.findall(pattern,src)[0]
lst.append(country)
return lst
最后我们把得到的数据进行下处理,去除掉不需要的字段,再增加年份字段等
for i in range(2005, 2020):
print('year', i)
url = 'http://www.shanghairanking.com/ARWU%s.html' % i
html = requests.get(url).content
table = pd.read_html(url)
college = table[0]
college.columns = ['world rank','university', 2,3, 'score', 5]
college.drop([2,3,5],axis = 1,inplace = True)
college['year'] = i
college['index_rank'] = college.index
college['index_rank'] = college['index_rank'].astype(int) + 1
college['country'] = get_country(html)
college.to_csv(r'College.csv', mode='a', encoding='utf_8_sig', header=True, index=0)
这样,我们就得到了 College.csv 文件
以上就是"怎么用python爬取世界大学排行数据"这篇文章的所有内容,感谢各位的阅读!相信大家阅读完这篇文章都有很大的收获,小编每天都会为大家更新不同的知识,如果还想学习更多的知识,请关注行业资讯频道。
大学
数据
知识
篇文章
世界
内容
字段
就是
网站
处理
不同
很大
特殊
交通
信息
函数
分数
历年
同时
国家
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
方舟怎么找回自己原来的服务器
数字化城管软件开发系统
对于服务器厂商的认识
星际蜗牛能当游戏服务器吗
网络技术CIDR
网络安全法规定国家实施什么战略
服务器加电检测记录表
自由幻想和服务器连接丢失
常州软件开发大概多少价格
xp的服务器管理器
算法类软件开发
河北红色文化馆软件开发
软件开发商进度管理
阿里数据库技术
逍遥魔兽数据库名字和密码
网易服务器是什么版本的
网络安全就业方向及前景
sql数据库表保存至局域网
苏州喔噻互联网科技薪金
区块链网络安全芯片
网络安全的基础
比12少7的数据库
软件开发 创新 公司
查询服务器目录存储大小
魔兽服务器登陆不上
正能量网络技术
数据库语言打印n层金字塔
房山区咨询网络技术服务平台
济南易途网络技术有限公司
身份证号码的网络安全