千家信息网

python如何使用requests+re

发表于:2025-02-04 作者:千家信息网编辑
千家信息网最后更新 2025年02月04日,python如何使用requests+re,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。在学习了python基础后,一心
千家信息网最后更新 2025年02月04日python如何使用requests+re

python如何使用requests+re,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

在学习了python基础后,一心想着快速入门爬虫,因为我就是为爬虫而学的python,所以就找了这个豆瓣电影来爬取。好了,废话不多说,进入正题


1.找到网页并分析网页结构


首先进入豆瓣电影Top250这个网页,按下f12打开开发者工具,如下图



然后开始分析网页,点击开发者工具左上角的有个箭头的东西去找你需要找的数据,在这里我发现每个电影的信息都是在

  • 的标签内,所以可以用正则表达式来先提取每一个电影,然后在分别提取每个电影中的数据。每个电影现在的数据都可以获取了,但是这个url只有25个电影,怎样获取下一页的呢?这里我们可以在每个页面获取下一页的链接,然后通过循环来继续获取下一页的电影数据即可


    我们可以先用开发者工具的箭头点一下后页,然后就显示右边的箭头数据出来,这里我们也可以用正则表达式来获取下一页的链接,然后接下来的工作就是循环了,好了分析结束,开始敲代码吧!


    2.用面向对象的方法进行爬取数据


    • 先用requests对网页进行请求,获取网页的html结构,在这里,为了防止网页的反爬虫技术,我加了个请求头(记得使用requests库之前先导入,没有的可以在命令行通过 pip install requests 进行下载)





      请求头在开发者工具中查看,如下图所示



    • 接下用正则表达式进行获取数据


      先匹配每一个电影和每一页数据(使用正则表达式的库是re)


      接下来获取每个电影的数据


      注意:获取到上面的数据,有的是空的,所以还需要进行判断是否为空,为了好看,我用了三元表达式进行判断,完成之后把他们存入字典


    • 接下来就是进行循环取下一页的数据了


    3.如果你有点数据库基础的话,还可以把他们存入数据库,在这里我把这些数据存入MySQL数据库,代码如下,需要自己先建好数据库好表格


    • 这是操作数据库的类(使用的库为pymysql)


    • 然后回到爬虫类进行把数据存入数据库



    4.成功后你就会在数据库中查到以下数据



    看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注行业资讯频道,感谢您对的支持。

  • 数据 电影 数据库 网页 表达式 工具 开发者 正则 爬虫 开发 接下来 就是 箭头 分析 代码 基础 结构 豆瓣 链接 先用 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 数据库怎么查先行课的先行课 计算机网络技术 自考题库 我的世界游乐场的服务器 绿盟的网络安全产品 报表处理系统数据库任务书 一个常见的网络安全模型 浩方登录服务器失败 柯美6501服务器00没反应 云霄县萍茂网络技术工作室 移动的网络安全管理人员是谁 成都游狐网络技术公司 请简述两种新建数据库的方法 网络安全组件图片大全 数据库如何定义非空 武汉网络安全培训最强的 软件开发工时单价 贵州软件开发微信小程序 如何保证商务企业内部网络安全 数据库中码表与一般表的区别 启动电脑服务器服务 成都游狐网络技术公司 少先队代表大会提案网络安全 魔兽怀旧付费转服可以选服务器吗 嵌入式软件开发区鲸鱼纹身 国产软件开发的缺失 云曦网络技术 全国网络安全防范 远程组网云服务器 齐向东第三代网络安全 中联重科软件开发加班
    0