导航：首页 > 开发技术 >

怎么用Python实现爬取百度热搜信息

发表于：2025-02-19 作者：千家信息网编辑

千家信息网最后更新 2025年02月19日，小编给大家分享一下怎么用Python实现爬取百度热搜信息，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！前言何为爬虫，其实就是利用计算机模拟人对网页的操作例如模拟人类浏览购物网站使用

千家信息网最后更新 2025年02月19日怎么用Python实现爬取百度热搜信息

小编给大家分享一下怎么用Python实现爬取百度热搜信息，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！

前言

何为爬虫，其实就是利用计算机模拟人对网页的操作

例如模拟人类浏览购物网站

使用爬虫前一定要看目标网站可刑不可刑：-）

可以在目标网站添加/robots.txt 查看网页具体信息

例如对天猫可输入 https://brita.tmall.com/robots.txt 进行查看

User-agent 代表发送请求的对象

星号*代表任何搜索引擎

Disallow 代表不允许访问的部分

/代表从根目录开始

Allow代表允许访问的部分

在本例中我爬取的百度热搜前30的新闻（本人原本打算爬取英雄联盟主页数据中心大乱斗胜率前五十的英雄信息奈何不会实现延时爬取网页的操作无奈只能爬百度热搜）并且其大致信息放到Excel表格以及Flask网页中实现数据可视化感兴趣的同学也可以对其它内容进行爬取

由于本人水平有限本文章中的爬虫都是比较基础的东西

库函数准备

Python库的安装方法：
打开cmd命令提示符输入pip install XXX(这个是你要装的库名称)

关于这些库的具体使用可以接下来看我的操作

只需要简单掌握几个常用的函数即可

bs4

即BeautifulSoup

用来解析HTML网页，提取指定数据的。

其中详细的用法待会看我的演示。

正则表达式用来匹配字符串中响应的字串。

关于正则表达式可以去看菜鸟教程里边讲的很详细

urllib

是一个Python自带的HTTP请求库，可以操作一系列URL。

xlwt/xlrt

用于写入(write) / 读取(read)，Excel表中的数据。

flask

这个库是用来只做一个简单的Web框架即网站，用于数据的可视化。

其实本人对于数据可视化的掌握也很浅薄，只是简单的将数据导入Web网页中。

jinja2

这个库的作用是为了实现在HTML网页中的字符中插入自变量的功能。

后端：name="HQ"前端：{{name}}长得真帅！
显示：HQ长得真帅！

markupsafe

与Jinja共用在渲染页面时用于避免不可信的输入，防止注入攻击（虽然没人会攻击你....）

数据爬取

数据爬取 和 数据可视化 两个py文件是分开的

数据爬取需要导入re bs4 urllib xlwt 四个库文件

网页爬取

使用一下的方法调用函数可以使函数调用关系更加清晰

if __name__=="__main__":  #当程序执行时 调用一下函数    main()

def askurl(url):    head={        "User-Agent":'''Mozilla/5.0 (Windows NT 10.0; Win64; x64)         AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36 Edg/97.0.1072.55'''    }    #用户代理 告诉服务器我只是一个普普通通的浏览器    requset=urllib.request.Request(url)    #发送请求    response=urllib.request.urlopen(requset)    #响应的为一个request对象     #通过read()转化为 bytes类型字符串    #再通过decode()转化为 str类型的字符串     #接受响应    html=response.read().decode('utf-8')        将抓取到的网页存入文档中 方便观察    path=r"C:\Users\XXX\Desktop\Python\text.txt"       #这里在字符串前加入r 防止字符串中的\发生转义     f=open(r"path",'w',encoding='utf-8')    f.write(html)    f.close()    #这样在txt文件中就可以查看网页的源码     return html

headers的值可以在网页中按F12

然后点击网络变化对于任意一个请求标头下拉到最下方即为 user-agent 代理信息

值得注意的是请求中如果不设置headers 则服务器会返回一个418的状态码

代表服务器识别出来你是一个爬虫并且表示：" I'm a teapot "

表明服务器拒绝冲煮咖啡，因为它永远是一个茶壶（这是一个梗）

数据解析

将抓取的txt文件后缀改为html后打开即为一个本地的网页

如果在vscode中因为行过长而产生报错可以参考以下博客

打开后的网页如图所示

使用这个功能查看需要爬取信息的位置

在本项目中我们抓取目标信息的标题内容热度以及链接

我们可以发现我们需要的信息全部在class为以下类型的表中

于是我们用Beautifulsoup对网页进行解析

def getData(html):    datalist=[]    soup=BeautifulSoup(html,"html.parser")   #定义一个解析对象        #soup.find_all(a,b) 其中a为标签的类型 class_ 对div的class进行匹配     #返回的是所有class为category-wrap_iQLoo horizontal_1eKyQ的列表        for item in soup.find_all('div',class_="category-wrap_iQLoo horizontal_1eKyQ"):        item=str(item)        #将列表中每一个子标签转换为字符串用于re匹配

接下来对每一个item进行re匹配

首先使用re.compile()创建匹配规则然后用findall进行匹配

匹配规则的创建方式为在HTML文件中查看目标信息前后的特殊字符

而(.*?)即为要匹配的字符串其中*后加？代表非贪婪匹配

例如

标题前后信息即为ellipsis">和

其它同理
#匹配规则#链接findlink=re.compile(r' href="(.*?)" rel="external nofollow" target="_blank') #标题findtitle=re.compile(r'ellipsis"> (.*?)

(.*?) (.*?) (.*?)
')
而内容部分我在后续运行的时候发现报错原因是
部分内容前缀为'ellipsis_DupbZ"> 部分内容前缀为small_Uvkd3">
因此我编写了两种匹配方式
具体代码如下
def getData(html): datalist=[] soup=BeautifulSoup(html,"html.parser") #定义一个解析对象 #soup.find_all(a,b) 其中a为标签的类型 class_ 对div的class进行匹配 #返回的是所有class为category-wrap_iQLoo horizontal_1eKyQ的列表 for item in soup.find_all('div',class_="category-wrap_iQLoo horizontal_1eKyQ"): item=str(item) #将列表中每一个子标签转换为字符串用于re匹配 data=[] #标题 title=re.findall(findtitle,item)[0] #简介 #判断是否对第一种匹配如果不是的话返回为空列表此时应采用第二种匹配 if (len(re.findall(findcontent1,item))!=0): content=re.findall(findcontent1,item)[0] else: content=re.findall(findcontent2,item)[0] #热度 number=re.findall(findnumber,item)[0] #链接 link=re.findall(findlink,item)[0] #将数据存入数组 data.append(title) data.append(number) data.append(content) data.append(link) datalist.append(data) print(datalist) return datalist
数据保存
def Savedata(datalist): #存入数据的目标路径 path=r'C:\Users\XXX\Desktop\Python\爬虫\data.xls' workbook=xlwt.Workbook(encoding='utf-8') #创建工作表对象 worksheet=workbook.add_sheet('sheet1') #创建表单 col=("标题","热度","内容","链接") #定义表含有的属性 for i in range(4): worksheet.write(0,i,col[i]) #write(i,j,value) 向表单的 [i][j] 位置写入value for i in range(30): for j in range(4): worksheet.write(i+1,j,datalist[i][j]) #将excel表保存 workbook.save(path)
看完了这篇文章，相信你对"怎么用Python实现爬取百度热搜信息"有了一定的了解，如果想了解更多相关知识，欢迎关注行业资讯频道，感谢各位的阅读！

很赞哦！

数据网页信息字符字符串代表内容函数对象标题爬虫目标类型部分文件服务器标签网站链接可视化数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全服务器虚拟机怎么共享 wincc服务器项目移植计算机网络技术实验TCP 平板电脑能做软件开发吗网络安全管理设备部署 linux搭建ftp服务器 php居中显示数据库表网络安全竞赛发言稿 php清除post数据库中国核心遴选数据库收录物联网云平台用什么数据库好压力测试增大服务器压力女性学软件开发完美连接不进服务器根据网络安全法数据软件开发去哪可以接私活写给软件开发人员的感谢信如何从数据库导出属性表网络安全宣传志愿服务活动网易手机服务器mc 魔兽服务器选择推荐网络安全知识活动报告和网络安全有关的题目北京什么是网络技术推广预防网络安全论文网络安全教育新的体会服务器配置成功是什么意思硕安网络安全软件开发助理工程师真题云服务器里的语言环境是什么意思

扫描关注千家信息网微信公众号，第一时间获取内容更新动态

转载请说明来源于"千家信息网"

本文地址：https://www.qianjiagd.com/a184478

上一篇
怎么利用中继和委派

这篇文章主要介绍"怎么利用中继和委派"，在日常操作中，相信很多人在怎么利用中继和委派问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答"怎么利用中继和委派"的疑惑有所帮助！接

下一篇
导入非OC文件导致的奇怪问题该如何理解

今天就跟大家聊聊有关导入非OC文件导致的奇怪问题该如何理解，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。今天导入了一个库文件后突然开始报一些莫

相关文章

PHP中session会话操作技巧有哪些

PHP类相关知识点有哪些

VS2008无法直接查看STL值怎么办

php版微信公众平台之微信网页登陆授权的示例分析

中高级PHP程序员应该掌握什么技术

CI框架出现mysql数据库连接资源无法释放怎么办

ajax跨域访问报错501怎么办

什么是RPC框架

.net mvc超过了最大请求长度怎么办

php分页原理的示例分析

站长推荐

点击排行

recovery是什么意思?电脑开机重启显示recovery蓝屏怎么办

怎么在Linux中配置SSH和Xshell远程连接服务器

VS2008无法直接查看STL值怎么办

什么是RPC框架

.net mvc超过了最大请求长度怎么办

java怎么实现try/catch异常块

PHP中如何处理上传文件

php中require_once报错的解决方法

PHP如何编写学校网站上新生注册登陆程序

php中微信公众号开发模式的示例分析

在vmware esxi6.5中将硬盘驱动类型由HDD变为SSD类型

Vue中的匿名插槽与具名插槽是什么

vue3与vue2的区别以及vue3的API用法介绍

录制的横屏视频怎么变成全屏竖屏（录制的横屏怎么变竖屏）

qq群作业里为什么图片上传不了（qq群作业照片传不上去）

vscoder如何关闭错误提示

百度网盘PDF怎么转换成Word格式 PDF转Word操作教程

老年机号码拉黑怎么解除（老年机号码拉黑怎么解除）

京东以旧换新评估价和实际一样吗（京东以旧换新估价和成交价一样吗）

拼多多注销后可以重开新用户吗（拼多多注销后重开算新用户吗）

标签云

数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全数据库安全章节测试华大基因数据库安全性数据库es安全性测试工具数据库与云安全微生物安全数据库数据库个人信息安全吗安全数据库降级黑龙江数据库安全防护系统数据库安全性实验例题在国家公共安全数据库有记录

猜你喜欢

微信登录加载联系人失败怎么弄（微信加载联系人失败点击重试）

华为手机按键震动在哪设置关掉按键振动怎么取消方法

陌陌无限注册教程（怎么注册陌陌新号）

微信看不到朋友圈不显示一条横线（微信看不到朋友圈只有一条横线）

win10开机蓝屏终止代码SYSTEM_SERVICE_EXCEPTION的解决方法

VS2008无法直接查看STL值怎么办

快影怎么把视频弄成横屏播放制作方法分享

拼多多的多多支付怎么解绑银行卡（拼多多的多多支付怎么解绑银行卡）

怎么将苹果手机中录音发给好友 iPhone传语音文件方法教程

iis7.5中如何让html与shtml一样支持include功能