Python怎么爬取招聘信息
发表于:2024-11-14 作者:千家信息网编辑
千家信息网最后更新 2024年11月14日,本篇文章给大家分享的是有关Python怎么爬取招聘信息,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。1. 目标爬取所有的职位信息信息职位
千家信息网最后更新 2024年11月14日Python怎么爬取招聘信息
本篇文章给大家分享的是有关Python怎么爬取招聘信息,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
1. 目标
爬取所有的职位信息信息
职位名
职位url
职位类型
职位人数
工作地点
发布时间
2. 网站结构分析
3. 编写爬虫程序
3.1. 配置需要爬取的目标变量
对于新手小白想更轻松的学好Python基础,Python爬虫,web开发、大数据,数据分析,人工智能等技术,这里给大家分享系统教学资源,加下我V:itz992 【教程/工具/方法/解疑】class TecentjobItem(scrapy.Item): # define the fields for your item here like: positionname = scrapy.Field() positionlink = scrapy.Field() positionType = scrapy.Field() peopleNum = scrapy.Field() workLocation = scrapy.Field() publishTime = scrapy.Field()
3.2. 写爬虫文件scrapy
# -*- coding: utf-8 -*-import scrapyfrom tecentJob.items import TecentjobItemclass TencentSpider(scrapy.Spider): name = 'tencent' allowed_domains = ['tencent.com'] url = 'https://hr.tencent.com/position.php?&start=' offset = 0 start_urls = [url + str(offset)] def parse(self, response): for each in response.xpath("//tr[@class = 'even'] | //tr[@class = 'odd']"): # 初始化模型对象 item = TecentjobItem() item['positionname'] = each.xpath("./td[1]/a/text()").extract()[0] item['positionlink'] = each.xpath("./td[1]/a/@href").extract()[0] item['positionType'] = each.xpath("./td[2]/text()").extract()[0] item['peopleNum'] = each.xpath("./td[3]/text()").extract()[0] item['workLocation'] = each.xpath("./td[4]/text()").extract()[0] item['publishTime'] = each.xpath("./td[5]/text()").extract()[0] yield item if self.offset < 100: self.offset += 10 # 将请求重写发送给调度器入队列、出队列、交给下载器下载 # 拼接新的rurl,并回调parse函数处理response # yield scrapy.Request(url, callback = self.parse) yield scrapy.Request(self.url + str(self.offset), callback=self.parse)
3.3. 编写yield需要的管道文件
import jsonclass TecentjobPipeline(object): def __init__(self): self.filename = open("tencent.json", 'wb') def process_item(self, item, spider): text = json.dumps(dict(item),ensure_ascii=False) + "\n" self.filename.write(text.encode('utf-8')) return item def close_spider(self, spider): self.filename.close()
3.4. setting中配置请求抱头信息
DEFAULT_REQUEST_HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en',}对于新手小白想更轻松的学好Python基础,Python爬虫,web开发、大数据,数据分析,人工智能等技术,这里给大家分享系统教学资源,加下我V:itz992 【教程/工具/方法/解疑】
4. 最后结果
以上就是Python怎么爬取招聘信息,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注行业资讯频道。
信息
职位
数据
爬虫
分析
招聘
人工
人工智能
基础
工具
技术
教学
教学资源
教程
数据分析
文件
新手
方法
智能
更多
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
软件开发对内承包方案
网络安全在身边心得体会100字
数据库关联图它实现了什么
高斯数据库查询锁表
数据库事务资源
网络安全企业安达天下
数据库实用教程董健全pdf
生产环境数据库修改授权书
登陆数据库指定登录用户
浙江生鲜电商软件开发
数据库表的创造
吉大通信5g网络技术
软件开发 后端角色
落实网络安全保护技术措施
服务器测速工具
西安防疫数据库丢失
网络安全宣传周佐证
细分行业软件开发
重庆多客云网络技术有限公司
去芯片公司做软件开发
软件开发干不了怎么办
河南洋洋网络技术有限公司
电子刊数据库英语怎么说
一站式软件开发工程
软件开发直销价
网络安全几年成什么趋势
如何改数据库客户端32位
二级数据库考试早上考什么
组装塔式服务器多少钱
白城市有没有软件开发公司