千家信息网

Python中Cookie和Session爬虫是什么

发表于:2025-01-19 作者:千家信息网编辑
千家信息网最后更新 2025年01月19日,Python中Cookie和Session爬虫是什么,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。关于cookie和session估
千家信息网最后更新 2025年01月19日Python中Cookie和Session爬虫是什么

Python中Cookie和Session爬虫是什么,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

  关于cookie和session估计很多程序员面试的时候都会被问到,这两个概念在写web以及爬虫中都会涉及,并且两者可能很多人直接回答也不好说的特别清楚,所以整理这样一篇文章,也帮助自己加深理解。

什么是Cookie

  其实简单的说就是当用户通过http协议访问一个服务器的时候,这个服务器会将一些Name/Value键值对返回给客户端浏览器,并将这些数据加上一些限制条件。在条件符合时,这个用户下次再访问服务器的时候,数据又被完整的带给服务器。

  因为http是一种无状态协议,用户首次访问web站点的时候,服务器对用户一无所知。而Cookie就像是服务器给每个来访问的用户贴的标签,而这些标签就是对来访问的客户端的独有的身份的一个标识,这里就如同每个人的身份证一样,带着你的个人信息。而当一个客户端第一次连接过来的时候,服务端就会给他打一个标签,这里就如同给你发了一个身份证,当你下载带着这个身份证来的时候,服务器就知道你是谁了。所以Cookie是存在客户端的,这里其实就是在你的浏览器中。

  Cookie中包含了一个由名字=值(name=value)这样的信息构成的任意列表,通过Set-Cookie或Set-Cookie2HTTP响应(扩展)首部将其贴到客户端身上。

  其实这里有一个非常典型的应用,就是关于你登录很多网站的账号信息,你让记住密码之后,一段时间内,不需要输入密码,每次都是登录状态

Cookie的分类

  这里Cookie主要分为两种:

  会话Cookie:不设置过期时间,保存在浏览器的内存中,关闭浏览器,Cookie便被销毁

  普通Cookie:设置了过期时间,保存在硬盘上

Cookie属性

  因为最开始的cookie是网景公司定义的,后来又有了RFC版本所以当前的Cookie有两个版本:Version0Version1他们有两种设置响应头的标识,分别是:Set-Cookie和Set-Cookie2,这也造成了一些属性的不同,这里需要注意:常用的为Version0

  Version0的属性

  NAME=Value:键值对设置要保存的Name/Value,这里的name不能喝其他属性的名字一样

  Expires:过期时间

  Domain:生成该Cookie的域名

  Path:该Cookie是在当前的哪个路径下生成

  Secure:如果设置了这个属性,那么只会在SSH连接时才会回传该Cookie

  Version1的属性

  Name=VALUE:键值对设置要保存的Name/Value,这里的name不能喝其他属性的名字一样

  Comment:主是想,用于说明该Cookie有什么用途

  CommentURL:该服务器为此COokie提供URI注释

  Discard:是否在回话结束丢弃该Cookie,默认为false

  Domain:生成该Cookie的域名

  Max-Age:最大失效时间,与Version0不同的是这里设置的是在多少秒后失效

  Path:该Cookie是在当前的哪个路径下生成

  Port:该Cookie在什么端口下可以回传服务端,如果有多个端口,以逗号隔开

  Secure:如果设置了这个属性,那么只会在SSH连接时才会回传该Cookie

关于Python中Cookie和Session爬虫是什么问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注行业资讯频道了解更多相关知识。

0