Python如何爬取实习僧招聘网站
发表于:2025-01-29 作者:千家信息网编辑
千家信息网最后更新 2025年01月29日,这篇文章主要为大家展示了"Python如何爬取实习僧招聘网站",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"Python如何爬取实习僧招聘网站"这篇文章吧。
千家信息网最后更新 2025年01月29日Python如何爬取实习僧招聘网站
这篇文章主要为大家展示了"Python如何爬取实习僧招聘网站",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"Python如何爬取实习僧招聘网站"这篇文章吧。
本次任务背景:
https://www.shixiseng.com
爬取一下实习僧IT互联网的Python实习信息
如上图所示,该字段的数据看不见,可能它不希望你很简单的就获得它网站的这些数据,这些数据对他来说比较重要,所以启用了反爬技巧
如果直接运行,这些数据是爬取不下来的,如下图:
如上图,相关数据已经以"utf-8"编码的方式呈现出来
创建函数hack_number(),用于解码数字
编写好相关代码之后,查看运行结果
完整代码如下:
import requestsfrom bs4 import BeautifulSoupheaders = {"user-agent":"Mozilla/5.0"}def hack_number(text): text = text.encode('utf-8') text = text.replace(b'\xef\x82\x9d', b'0') text = text.replace(b'\xee\xa6\x88', b'1') text = text.replace(b'\xee\xa8\xb4', b'2') text = text.replace(b'\xef\x91\xbe', b'3') text = text.replace(b'\xee\x88\x9d', b'4') text = text.replace(b'\xef\x97\x80', b'5') text = text.replace(b'\xee\x85\x9f', b'6') text = text.replace(b'\xee\x98\x92', b'7') text = text.replace(b'\xef\x80\x95', b'8') text = text.replace(b'\xef\x94\x9b', b'9') text = text.decode() return textdef detail_page(url): req = requests.get(url,headers=headers) html = req.text soup = BeautifulSoup(html,'lxml') job_name = soup.select('.new_job_name')[0].text.strip() job_money = hack_number(soup.select('.job_money')[0].text.strip()) job_position = soup.select('.job_position')[0].text.strip() job_academic = soup.select('.job_academic')[0].text.strip() job_detail = soup.select('.job_detail')[0].text.strip() job_week = hack_number(soup.select('.job_week')[0].text.strip()) job_time = hack_number(soup.select('.job_time')[0].text.strip()) print(job_name,job_money,job_position,job_academic,job_week,job_time) print(job_detail)#detail_page('https://www.shixiseng.com/intern/inn_1k3vhcwwguaf?pcm=pc_SearchList')#detail_page('https://www.shixiseng.com/intern/inn_uk1lm380lngh?pcm=pc_SearchList')#detail_page('https://www.shixiseng.com/intern/inn_fr1o1nii5knw?pcm=pc_SearchList')for pages in range(1,3): url = f'https://www.shixiseng.com/interns?page={pages}&keyword=Python&type=intern&area=&months=&days=°ree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E8%B4%B5%E9%98%B3&internExtend=' req = requests.get(url,headers=headers) html = req.text soup = BeautifulSoup(html,'lxml') for item in soup.select('a.title ellipsis font'): detail_url = f"https://www.shixiseng.com{item.get('href')}" detail_page(detail_url)
以上是"Python如何爬取实习僧招聘网站"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!
实习
数据
网站
招聘网站
招聘
内容
篇文章
上图
代码
学习
帮助
运行
重要
互联网
任务
信息
函数
字段
技巧
数字
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
手机怎么挂代理服务器
怎么在本地访问服务器文件
江苏网络技术服务价目表
查找网站服务器
软件开发实习报告2000字
江阴海航软件开发收购价
apm是否可以监控数据库
南京培训软件开发机构
数据库查看所有数据
数据库系统中数据完整性分为
洛阳节能软件开发公司
网络安全与技术视频教程
服务器机箱能安装主板吗
光纤网络技术 英文
杭州万通网络技术有限公司
布比网络技术有限公司实力如何
概要设计是数据库设计吗
宿迁企业软件开发管理方法
excel访问数据库文件
金融网络安全的标语
mc手机版国际版服务器地址
zinc小分子数据库
sql数据库安全措施
数据库管理技术最初阶段
网上卖的电脑服务器好么
altium离线数据库
软件开发中间层开发
我的世界虎牙服务器怎么换号
开发数据库应用的语言
电脑老是弹出检测服务器信息