Python爬虫的必备技巧有哪些
发表于:2025-02-19 作者:千家信息网编辑
千家信息网最后更新 2025年02月19日,这篇文章主要介绍"Python爬虫的必备技巧有哪些",在日常操作中,相信很多人在Python爬虫的必备技巧有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"Pytho
千家信息网最后更新 2025年02月19日Python爬虫的必备技巧有哪些
这篇文章主要介绍"Python爬虫的必备技巧有哪些",在日常操作中,相信很多人在Python爬虫的必备技巧有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"Python爬虫的必备技巧有哪些"的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
自定义函数
import requestsfrom bs4 import BeautifulSoupheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'}def baidu(company): url = 'https://www.baidu.com/s?rtt=4&tn=news&word=' + company print(url) html = requests.get(url, headers=headers).text s = BeautifulSoup(html, 'html.parser') title=s.select('.news-title_1YtI1 a') for i in title: print(i.text)# 批量调用函数companies = ['腾讯', '阿里巴巴', '百度集团']for i in companies: baidu(i)
批量输出多个搜索结果的标题
结果保存为文本文件
import requestsfrom bs4 import BeautifulSoupheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'}def baidu(company): url = 'https://www.baidu.com/s?rtt=4&tn=news&word=' + company print(url) html = requests.get(url, headers=headers).text s = BeautifulSoup(html, 'html.parser') title=s.select('.news-title_1YtI1 a') fl=open('test.text','a', encoding='utf-8') for i in title: fl.write(i.text + '\n')# 批量调用函数companies = ['腾讯', '阿里巴巴', '百度集团']for i in companies: baidu(i)
写入代码
fl=open('test.text','a', encoding='utf-8')for i in title: fl.write(i.text + '\n')
异常处理
for i in companies: try: baidu(i) print('运行成功') except: print('运行失败')
写在循环中 不会让程序停止运行 而会输出运行失败
休眠时间
import timefor i in companies: try: baidu(i) print('运行成功') except: print('运行失败')time.sleep(5)
time.sleep(5)
括号里的单位是秒
放在什么位置 则在什么位置休眠(暂停)
爬取多页内容
百度搜索腾讯
切换到第二页
去掉多多余的
https://www.baidu.com/s?wd=腾讯&pn=10
分析出
https://www.baidu.com/s?wd=腾讯&pn=0 为第一页
https://www.baidu.com/s?wd=腾讯&pn=10 为第二页
https://www.baidu.com/s?wd=腾讯&pn=20 为第三页
https://www.baidu.com/s?wd=腾讯&pn=30 为第四页
..........
代码
from bs4 import BeautifulSoupimport timeheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'}def baidu(c): url = 'https://www.baidu.com/s?wd=腾讯&pn=' + str(c)+'0' print(url) html = requests.get(url, headers=headers).text s = BeautifulSoup(html, 'html.parser') title=s.select('.t a') for i in title: print(i.text)for i in range(10): baidu(i) time.sleep(2)
到此,关于"Python爬虫的必备技巧有哪些"的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注网站,小编会继续努力为大家带来更多实用的文章!
腾讯
运行
技巧
爬虫
学习
函数
巴巴
成功
代码
位置
更多
结果
集团
阿里
阿里巴巴
休眠
帮助
搜索
输出
实用
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
初中生网络安全知识讲座
网络安全系统管理与维护
陕西网络技术服务价目表
苹果手机的服务器是什么
公交车支付软件开发商
数据库插入数据错误
杭州嵌入式软件开发流程
数据库的研发6
学校通讯员网络安全培训
网络安全模式显示蓝屏
csv 写入数据库
山青院网络安全大赛
国内软件开发前景
江苏服务器风扇品质保障
杭州紫光网络技术有限公司
服务器网络波动大 维护多长时间
海康威视云服务器无法启动
软件开发 人数
mpp数据库标准
网络技术公司起什么名
网络安全系统管理与维护
南京测试软件开发平台
网络安全领导小组工作方案
数据库系统设计总结
pg数据库如何查询用户
福建网络安全防护等级
刷脸支付软件开发公司
kettle连接新的数据库
美国和中国网络安全吗
博看网是什么类型数据库