Python怎么爬取上道网项目
发表于:2024-10-28 作者:千家信息网编辑
千家信息网最后更新 2024年10月28日,本篇内容主要讲解"Python怎么爬取上道网项目",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"Python怎么爬取上道网项目"吧!一、实现目标获取对应的公
千家信息网最后更新 2024年10月28日Python怎么爬取上道网项目
本篇内容主要讲解"Python怎么爬取上道网项目",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"Python怎么爬取上道网项目"吧!
一、实现目标
获取对应的公司名称,保存文档。
二、项目准备
软件:PyCharm
需要的库:requests,fake_useragent,time
三、项目分析
如何网页访问?
http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-1.htmlhttp://www.daogame.cn/qudao-p-2.html?s=/qudao-p-2.htmlhttp://www.daogame.cn/qudao-p-2.html?s=/qudao-p-3.htmlhttp://www.daogame.cn/qudao-p-2.html?s=/qudao-p-4.html
点击下一页时,每增加一页p-{}.html自增加1,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求。
四、项目实现
1. 定义一个class类继承object,定义init方法继承self,主函数main继承self。导入需要的库、请求地址。
import requestsfrom lxml import etreefrom fake_useragent import UserAgentimport timeclass Shangdao(object): def __init__(self): self.url = "http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-{}.html" #网站 def main(self): passif __name__ == '__main__': Siper = Shangdao() Siper.main()
2. 随机产生UserAgent,防止反爬。
for i in range(1, 50): self.headers = { 'User-Agent': ua.random, }
3. 发送请求 获取响应, 页面回调,方便下次请求。
def get_page(self, url): res = requests.get(url=url, headers=self.headers) html = res.content.decode("utf-8") return html
4. 获取公司名称,for遍历。
def page_page(self, html): parse_html = etree.HTML(html) one = parse_html.xpath('//h3/a/text()') for i in one: print(i)
5. 写入文档。
f = open('公司.doc', 'a', encoding='utf-8') # 以'w'方式打开文件 f.write(str(i))
6. 调用方法,实现功能。
def main(self): stat = int(input("输 入 开 始 (2开始):")) end = int(input("输 入 结 束:")) for page in range(stat, end + 1): url = self.url.format(page) print(url) html = self.get_page(url) self.page_page(html) print("==================第%s页爬取成功!!!!=====================" % page)
项目优化:
设置时间延时。
time.sleep(1.4)
五、效果展示
点击绿色小三角运行输入起始页,终止页( 从0页开始 )。
渠道公司名,结果显示控制台。
保存文档。
到此,相信大家对"Python怎么爬取上道网项目"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
项目
公司
文档
方法
内容
名称
网址
网站
学习
实用
更深
成功
兴趣
函数
功能
变量
地址
多个
实用性
实际
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
理解网络安全法在的作用
山西晋安华普网络技术有限公司
小学网络安全签字仪式
组态王作为opc服务器
黔西南州大数据库
常用的网络安全服务
深圳慧源通网络技术
go语言网络安全毕业设计
电脑上不了网无法连接代理服务器
服务器好卖写
最新网络安全法宣传活动总结
网络与数据库开发手册
java怎样调用数据库中的字段
网络安全民警个人检查
护苗网络安全信息
手机如何开启网络安全
技术支持数据库语句
网络安全秦安博士简历
网络安全宣传周个人主要事迹
虹口区一站式软件开发产品介绍
吉林综合软件开发包括哪些
如何写服务器
重庆招聘的软件开发
中国软件开发网站
光环助手需要下载什么服务器
窗帘软件开发
ssh 服务器密码
智能路由 服务器
怎么把模组装到服务器里面
服务器 网站安全维护