Python如何爬取实习僧招聘网站
发表于:2024-11-14 作者:千家信息网编辑
千家信息网最后更新 2024年11月14日,这篇文章主要为大家展示了"Python如何爬取实习僧招聘网站",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"Python如何爬取实习僧招聘网站"这篇文章吧。
千家信息网最后更新 2024年11月14日Python如何爬取实习僧招聘网站
这篇文章主要为大家展示了"Python如何爬取实习僧招聘网站",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"Python如何爬取实习僧招聘网站"这篇文章吧。
本次任务背景:
https://www.shixiseng.com
爬取一下实习僧IT互联网的Python实习信息
如上图所示,该字段的数据看不见,可能它不希望你很简单的就获得它网站的这些数据,这些数据对他来说比较重要,所以启用了反爬技巧
如果直接运行,这些数据是爬取不下来的,如下图:
如上图,相关数据已经以"utf-8"编码的方式呈现出来
创建函数hack_number(),用于解码数字
编写好相关代码之后,查看运行结果
完整代码如下:
import requestsfrom bs4 import BeautifulSoupheaders = {"user-agent":"Mozilla/5.0"}def hack_number(text): text = text.encode('utf-8') text = text.replace(b'\xef\x82\x9d', b'0') text = text.replace(b'\xee\xa6\x88', b'1') text = text.replace(b'\xee\xa8\xb4', b'2') text = text.replace(b'\xef\x91\xbe', b'3') text = text.replace(b'\xee\x88\x9d', b'4') text = text.replace(b'\xef\x97\x80', b'5') text = text.replace(b'\xee\x85\x9f', b'6') text = text.replace(b'\xee\x98\x92', b'7') text = text.replace(b'\xef\x80\x95', b'8') text = text.replace(b'\xef\x94\x9b', b'9') text = text.decode() return textdef detail_page(url): req = requests.get(url,headers=headers) html = req.text soup = BeautifulSoup(html,'lxml') job_name = soup.select('.new_job_name')[0].text.strip() job_money = hack_number(soup.select('.job_money')[0].text.strip()) job_position = soup.select('.job_position')[0].text.strip() job_academic = soup.select('.job_academic')[0].text.strip() job_detail = soup.select('.job_detail')[0].text.strip() job_week = hack_number(soup.select('.job_week')[0].text.strip()) job_time = hack_number(soup.select('.job_time')[0].text.strip()) print(job_name,job_money,job_position,job_academic,job_week,job_time) print(job_detail)#detail_page('https://www.shixiseng.com/intern/inn_1k3vhcwwguaf?pcm=pc_SearchList')#detail_page('https://www.shixiseng.com/intern/inn_uk1lm380lngh?pcm=pc_SearchList')#detail_page('https://www.shixiseng.com/intern/inn_fr1o1nii5knw?pcm=pc_SearchList')for pages in range(1,3): url = f'https://www.shixiseng.com/interns?page={pages}&keyword=Python&type=intern&area=&months=&days=°ree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E8%B4%B5%E9%98%B3&internExtend=' req = requests.get(url,headers=headers) html = req.text soup = BeautifulSoup(html,'lxml') for item in soup.select('a.title ellipsis font'): detail_url = f"https://www.shixiseng.com{item.get('href')}" detail_page(detail_url)
以上是"Python如何爬取实习僧招聘网站"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!
实习
数据
网站
招聘网站
招聘
内容
篇文章
上图
代码
学习
帮助
运行
重要
互联网
任务
信息
函数
字段
技巧
数字
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
白山市腾键软件开发有限公司
小学网络安全主题班会内容摘要
安阳软件开发规定
杭州鸿大网络技术有限公司
朝阳区先进网络技术服务质量保障
ftp服务器绿色版
服务器文件误删
数据库的建立与维护实验目的
西安网络安全宣传周在哪
互联网科技副作用
网络安全员竞赛视频
跃橙互联网科技
华硕服务器主板
极限网络安全
哪里买服务器
舟山多场景视频系统服务器
mysqld数据库服务
金凤区政务软件开发价格表
技术强华为云云数据库服务商
国内外引文文献分别有哪些数据库
网络安全和信息化分别范围
校园网络安全活动日
人人彩网络技术
网易哈利波特不同服务器
剑灵电信一区服务器
台湾十大云主机云服务器
网信办网络安全保障中心岗位性质
浪潮服务器硬盘亮红灯
数据库系统发展的基础
数据库原理与技术第一版