千家信息网

千家信息网

请输入关键字词

热门搜索排行

最新搜索排行

导航：首页 > 开发技术 >

Python的常见面试题有哪些

发表于：2024-11-22 作者：千家信息网编辑

千家信息网最后更新 2024年11月22日，本篇内容主要讲解"Python的常见面试题有哪些"，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习"Python的常见面试题有哪些"吧!一. 遇到过得反爬虫策略

千家信息网最后更新 2024年11月22日Python的常见面试题有哪些

本篇内容主要讲解"Python的常见面试题有哪些"，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习"Python的常见面试题有哪些"吧!

一. 遇到过得反爬虫策略以及解决方法?

1.通过headers反爬虫

2.基于用户行为的发爬虫：(同一IP短时间内访问的频率)

3.动态网页反爬虫(通过ajax请求数据，或者通过JavaScript生成)

4.对部分数据进行加密处理的(数据是乱码)

解决方法：

对于基本网页的抓取可以自定义headers,添加headers的数据

使用多个代理ip进行抓取或者设置抓取的频率降低一些，

动态网页的可以使用selenium + phantomjs 进行抓取

对部分数据进行加密的，可以使用selenium进行截图，使用python自带的pytesseract库进行识别，但是比较慢最直接的方法是找到加密的方法进行逆向推理。

二. urllib 和 urllib2 的区别？

urllib 和urllib2都是接受URL请求的相关模块，但是urllib2可以接受一个Request类的实例来设置URL请求的headers，urllib仅可以接受URL。urllib不可以伪装你的User-Agent字符串。
urllib提供urlencode()方法用来GET查询字符串的产生，而urllib2没有。这是为何urllib常和urllib2一起使用的原因。

三. 列举网络爬虫所用到的网络数据包，解析包？

网络数据包 urllib、urllib2、requests
解析包 re、xpath、beautiful soup、lxml

四. 简述一下爬虫的步骤？

确定需求；
确定资源；
通过url获取网站的返回数据；
定位数据；
存储数据。

五. 遇到反爬机制怎么处理？

反爬机制:

headers方向

判断User-Agent、判断Referer、判断Cookie。

将浏览器的headers信息全部添加进去

注意：Accept-Encoding；gzip,deflate需要注释掉

六. 常见的HTTP方法有哪些？

GET：请求指定的页面信息，返回实体主体；
HEAD:类似于get请求，只不过返回的响应中没有具体的内容，用于捕获报头；
POST：向指定资源提交数据进行处理请求(比如表单提交或者上传文件)，。数据被包含在请求体中。
PUT:从客户端向服务端传送数据取代指定的文档的内容；
DELETE：请求删除指定的页面；
CONNNECT：HTTP1.1协议中预留给能够将连接方式改为管道方式的代理服务器；
OPTIONS:允许客户端查看服务器的性能；
TRACE：回显服务器的请求，主要用于测试或者诊断。

七. 说一说redis-scrapy中redis的作用?

它是将scrapy框架中Scheduler替换为redis数据库，实现队列管理共享。

优点：

可以充分利用多台机器的带宽；
可以充分利用多台机器的IP地址。

八. 遇到的反爬虫策略以及解决方法?

通过headers反爬虫：自定义headers，添加网页中的headers数据。
基于用户行为的反爬虫(封IP)：可以使用多个代理IP爬取或者将爬取的频率降低。
动态网页反爬虫(JS或者Ajax请求数据)：动态网页可以使用 selenium + phantomjs 抓取。
对部分数据加密处理(数据乱码):找到加密方法进行逆向推理。

九. 如果让你来防范网站爬虫，你应该怎么来提高爬取的难度？

判断headers的User-Agent；
检测同一个IP的访问频率；
数据通过Ajax获取；
爬取行为是对页面的源文件爬取，如果要爬取静态网页的html代码，可以使用jquery去模仿写html。

十. scrapy分为几个组成部分？分别有什么作用？

分为5个部分；Spiders(爬虫类)，Scrapy Engine(引擎),Scheduler(调度器),Downloader(下载器),Item Pipeline(处理管道)。

Spiders:开发者自定义的一个类，用来解析网页并抓取指定url返回的内容。
Scrapy Engine:控制整个系统的数据处理流程，并进行事务处理的触发。
Scheduler：接收Engine发出的requests，并将这些requests放入到处理列队中，以便之后engine需要时再提供。
Download：抓取网页信息提供给engine，进而转发至Spiders。
Item Pipeline:负责处理Spiders类提取之后的数据。
比如清理HTML数据、验证爬取的数据(检查item包含某些字段)、查重(并丢弃)、将爬取结果保存到数据库中

到此，相信大家对"Python的常见面试题有哪些"有了更深的了解，不妨来实际操作一番吧！这里是网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

数据爬虫方法网页处理内容加密动态部分频率服务试题信息服务器网站网络行为页面代理乱码数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全网络技术发展有限公司高校论文查重用的是什么数据库工行西安软件开发中心薪水计算机与网络技术含义河间app软件开发北京智凯特网络技术有限公司地铁逃生哪个服务器可以秒开郑州工业软件开发怎么样 2017年互联网科技峰会 pumg连接不上服务器 c 游戏服务器开发服务器安全管理办法专科计算机网络技术太难了 mysql数据库平均收入前后端运维软件开发东莞数据链软件开发批发价格华信云服务器费用梅州卫星软件开发批发价格易软件开发 nysql数据库原理中国网络安全云平台如何保护自己的网络安全及财产安全手机做模型用什么软件开发数据库url设置时区关系数据库能干什么 delphi 时间服务器河南郑州网络技术学院怎么样股票配资平台软件开发专科生计算机网络技术代码游戏反馈需要填写的服务器是什么

相关文章