Python爬虫的必备技巧有哪些
发表于:2024-11-28 作者:千家信息网编辑
千家信息网最后更新 2024年11月28日,这篇文章主要介绍"Python爬虫的必备技巧有哪些",在日常操作中,相信很多人在Python爬虫的必备技巧有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"Pytho
千家信息网最后更新 2024年11月28日Python爬虫的必备技巧有哪些
这篇文章主要介绍"Python爬虫的必备技巧有哪些",在日常操作中,相信很多人在Python爬虫的必备技巧有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"Python爬虫的必备技巧有哪些"的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
自定义函数
import requestsfrom bs4 import BeautifulSoupheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'}def baidu(company): url = 'https://www.baidu.com/s?rtt=4&tn=news&word=' + company print(url) html = requests.get(url, headers=headers).text s = BeautifulSoup(html, 'html.parser') title=s.select('.news-title_1YtI1 a') for i in title: print(i.text)# 批量调用函数companies = ['腾讯', '阿里巴巴', '百度集团']for i in companies: baidu(i)
批量输出多个搜索结果的标题
结果保存为文本文件
import requestsfrom bs4 import BeautifulSoupheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'}def baidu(company): url = 'https://www.baidu.com/s?rtt=4&tn=news&word=' + company print(url) html = requests.get(url, headers=headers).text s = BeautifulSoup(html, 'html.parser') title=s.select('.news-title_1YtI1 a') fl=open('test.text','a', encoding='utf-8') for i in title: fl.write(i.text + '\n')# 批量调用函数companies = ['腾讯', '阿里巴巴', '百度集团']for i in companies: baidu(i)
写入代码
fl=open('test.text','a', encoding='utf-8')for i in title: fl.write(i.text + '\n')
异常处理
for i in companies: try: baidu(i) print('运行成功') except: print('运行失败')
写在循环中 不会让程序停止运行 而会输出运行失败
休眠时间
import timefor i in companies: try: baidu(i) print('运行成功') except: print('运行失败')time.sleep(5)
time.sleep(5)
括号里的单位是秒
放在什么位置 则在什么位置休眠(暂停)
爬取多页内容
百度搜索腾讯
切换到第二页
去掉多多余的
https://www.baidu.com/s?wd=腾讯&pn=10
分析出
https://www.baidu.com/s?wd=腾讯&pn=0 为第一页
https://www.baidu.com/s?wd=腾讯&pn=10 为第二页
https://www.baidu.com/s?wd=腾讯&pn=20 为第三页
https://www.baidu.com/s?wd=腾讯&pn=30 为第四页
..........
代码
from bs4 import BeautifulSoupimport timeheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'}def baidu(c): url = 'https://www.baidu.com/s?wd=腾讯&pn=' + str(c)+'0' print(url) html = requests.get(url, headers=headers).text s = BeautifulSoup(html, 'html.parser') title=s.select('.t a') for i in title: print(i.text)for i in range(10): baidu(i) time.sleep(2)
到此,关于"Python爬虫的必备技巧有哪些"的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注网站,小编会继续努力为大家带来更多实用的文章!
腾讯
运行
技巧
爬虫
学习
函数
巴巴
成功
代码
位置
更多
结果
集团
阿里
阿里巴巴
休眠
帮助
搜索
输出
实用
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
无法从暴雪服务器
山东互联网软件开发价格
excel能否进行数据库
数据库安全上机试题
vs如何读取数据库中的数据
一体机数据库
武汉斗鱼网络技术公司
tbl服务器备份哪个好
查数据库监听端口
手机视频播放软件开发
应用程序 建立的连接数据库
服务器加域名安全吗
密码学网络安全论文
网络安全守护网络作品
软件开发命名规则项目
充电桩共享软件开发
网络安全罪量刑
文件管理数据库软件完整最新版
msv服务器
公民网络安全政策
服务器联通三区
数据库能做什么
荆州华诚网络技术有限公司
移动终端使用最多的数据库软件
论网络安全法的重要性论文
建立图纸管理数据库
软件开发配置文件是啥
nms 服务器
长沙软件开发专科学校排名
局域网本机连接数据库