Python爬虫的必备技巧有哪些
发表于:2025-02-02 作者:千家信息网编辑
千家信息网最后更新 2025年02月02日,这篇文章主要介绍"Python爬虫的必备技巧有哪些",在日常操作中,相信很多人在Python爬虫的必备技巧有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"Pytho
千家信息网最后更新 2025年02月02日Python爬虫的必备技巧有哪些
这篇文章主要介绍"Python爬虫的必备技巧有哪些",在日常操作中,相信很多人在Python爬虫的必备技巧有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"Python爬虫的必备技巧有哪些"的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
自定义函数
import requestsfrom bs4 import BeautifulSoupheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'}def baidu(company): url = 'https://www.baidu.com/s?rtt=4&tn=news&word=' + company print(url) html = requests.get(url, headers=headers).text s = BeautifulSoup(html, 'html.parser') title=s.select('.news-title_1YtI1 a') for i in title: print(i.text)# 批量调用函数companies = ['腾讯', '阿里巴巴', '百度集团']for i in companies: baidu(i)
批量输出多个搜索结果的标题
结果保存为文本文件
import requestsfrom bs4 import BeautifulSoupheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'}def baidu(company): url = 'https://www.baidu.com/s?rtt=4&tn=news&word=' + company print(url) html = requests.get(url, headers=headers).text s = BeautifulSoup(html, 'html.parser') title=s.select('.news-title_1YtI1 a') fl=open('test.text','a', encoding='utf-8') for i in title: fl.write(i.text + '\n')# 批量调用函数companies = ['腾讯', '阿里巴巴', '百度集团']for i in companies: baidu(i)
写入代码
fl=open('test.text','a', encoding='utf-8')for i in title: fl.write(i.text + '\n')
异常处理
for i in companies: try: baidu(i) print('运行成功') except: print('运行失败')
写在循环中 不会让程序停止运行 而会输出运行失败
休眠时间
import timefor i in companies: try: baidu(i) print('运行成功') except: print('运行失败')time.sleep(5)
time.sleep(5)
括号里的单位是秒
放在什么位置 则在什么位置休眠(暂停)
爬取多页内容
百度搜索腾讯
切换到第二页
去掉多多余的
https://www.baidu.com/s?wd=腾讯&pn=10
分析出
https://www.baidu.com/s?wd=腾讯&pn=0 为第一页
https://www.baidu.com/s?wd=腾讯&pn=10 为第二页
https://www.baidu.com/s?wd=腾讯&pn=20 为第三页
https://www.baidu.com/s?wd=腾讯&pn=30 为第四页
..........
代码
from bs4 import BeautifulSoupimport timeheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'}def baidu(c): url = 'https://www.baidu.com/s?wd=腾讯&pn=' + str(c)+'0' print(url) html = requests.get(url, headers=headers).text s = BeautifulSoup(html, 'html.parser') title=s.select('.t a') for i in title: print(i.text)for i in range(10): baidu(i) time.sleep(2)
到此,关于"Python爬虫的必备技巧有哪些"的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注网站,小编会继续努力为大家带来更多实用的文章!
腾讯
运行
技巧
爬虫
学习
函数
巴巴
成功
代码
位置
更多
结果
集团
阿里
阿里巴巴
休眠
帮助
搜索
输出
实用
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
安卓游戏软件开发流程图
php删数组数据库txt
河南新一代软件开发价钱
好的软件开发优质推荐
杭州边缘网络技术有限公司
外卖服务器电源
山东电力1802网络安全
通信行程卡服务器内部错误
打车软件开发赚钱吗
lt软件开发部门规划
浙江机械刀片服务器价格
qt 创建数据库
数据库中数据怎么保证安全
计算机网络技术的各种工作
软件开发企业质量体系文件
mysql数据库简介
长沙市服务器包装选哪家
数据库硬件系统
镇江java软件开发流程
vc数据库怎么操作
牡丹江市成翰互联网科技
wifi服务器红灯亮怎么办
软件开发模型快速原型
简答题介绍数据库的几个特征
网络安全法律体
威海租房软件开发
河北网络技术
删除表中最后一条数据库
物流简单软件开发
万方 行业数据库