加入收藏 | 设为首页 | 会员中心 | 我要投稿 济南站长网 (https://www.0531zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 服务器 > 搭建环境 > Windows > 正文

爬虫工程师必须掌握的Cookie知识点都在这里

发布时间:2019-08-16 06:12:59 所属栏目:Windows 来源:佚名
导读:副标题#e# 上一篇我们在讲优酷弹幕爬虫的时候,引入了一个新的知识点:Cookie,由于篇幅有限当时只是简单的给大家介绍了一下它的作用,今天我们就来全面了解一下Cookie(小饼干)以及相关的知识! 相信很多同学肯定听过Cookie这个东西,也大概了解其作用,
副标题[/!--empirenews.page--]

上一篇我们在讲优酷弹幕爬虫的时候,引入了一个新的知识点:Cookie,由于篇幅有限当时只是简单的给大家介绍了一下它的作用,今天我们就来全面了解一下Cookie(小饼干)以及相关的知识!

相信很多同学肯定听过Cookie这个东西,也大概了解其作用,但是其原理以及如何设置,可能没有做过web的同学并不是非常清楚,那今天猪哥就带大家详细了解下Cookie相关的知识!

一、诞生背景

爬虫系列教程的第一篇:HTTP详解中我们便说过HTTP的五大特点,而其中之一便是:无状态

HTTP无状态:服务器无法知道两个请求是否来自同一个浏览器,即服务器不知道用户上一次做了什么,每次请求都是完全相互独立。

早期互联网只是用于简单的浏览文档信息、查看黄页、门户网站等等,并没有交互这个说法。但是随着互联网慢慢发展,宽带、服务器等硬件设施已经得到很大的提升,互联网允许人们可以做更多的事情,所以交互式Web慢慢兴起,而HTTP无状态的特点却严重阻碍其发展!

交互式Web:客户端与服务器可以互动,如用户登录,购买商品,各种论坛等等

不能记录用户上一次做了什么,怎么办?聪明的程序员们就开始思考:怎么样才能记录用户上一次的操作信息呢?于是有人就想到了隐藏域。

隐藏域写法:<input type="hidden" name="field_name" value="value">

这样把用户上一次操作记录放在form表单的input中,这样请求时将表单提交不就知道上一次用户的操作,但是这样每次都得创建隐藏域而且得赋值太麻烦,而且容易出错!

ps:隐藏域作用强大,时至今日都有很多人在用它解决各种问题!

网景公司当时一名员工Lou Montulli(卢-蒙特利),在1994年将“cookies”的概念应用于网络通信,用来解决用户网上购物的购物车历史记录,而当时最强大的浏览器正是网景浏览器,在网景浏览器的支持下其他浏览器也渐渐开始支持Cookie,到目前所有浏览器都支持Cookie了

爬虫工程师必须掌握的Cookie知识点都在这里

二、Cookie是什么

前面我们已经知道了Cookie的诞生是为了解决HTTP无状态的特性无法满足交互式web,那它究竟是什么呢?

爬虫工程师必须掌握的Cookie知识点都在这里

上图是在Chrome浏览器中的百度首页的Cookies(Cookie的复数形式),在表格中,每一行都代表着一个Cookie,所以我们来看看Cookie的定义吧!

Cookie是由服务器发给客户端的特殊信息,而这些信息以文本文件的方式存放在客户端,然后客户端每次向服务器发送请求的时候都会带上这些特殊的信息,用于服务器记录客户端的状态。

Cookie主要用于以下三个方面:

  1.  会话状态管理(如用户登录状态、购物车、游戏分数或其它需要记录的信息)
  2.  个性化设置(如用户自定义设置、主题等)
  3.  浏览器行为跟踪(如跟踪分析用户行为等)

三、Cookie原理

我们在了解了Cookie是由服务器发出存储在浏览器的特殊信息,那具体是怎么样的一个过程呢?为了大家便于理解,猪哥就以用户登录为例子为大家画了一幅Cookie原理图

爬虫工程师必须掌握的Cookie知识点都在这里

用户在输入用户名和密码之后,浏览器将用户名和密码发送给服务器,服务器进行验证,验证通过之后将用户信息加密后封装成Cookie放在请求头中返回给浏览器。

  1. HTTP/1.1 200 OK  
  2. Content-type: text/html  
  3. Set-Cookie: user_cookie=Rg3vHJZnehYLjVg7qi3bZjzg; Expires=Tue, 15 Aug 2019 21:47:38 GMT; Path=/; Domain=.169it.com; HttpOnly  
  4. [响应体] 

浏览器收到服务器返回数据,发现请求头中有一个:Set-Cookie,然后它就把这个Cookie保存起来,下次浏览器再请求服务器的时候,会把Cookie也放在请求头中传给服务器:

  1. GET /sample_page.html HTTP/1.1  
  2. Host: www.example.org  
  3. Cookie: user_cookie=Rg3vHJZnehYLjVg7qi3bZjzg 

服务器收到请求后从请求头中拿到cookie,然后解析并到用户信息,说明此用户已登录,Cookie是将数据保存在客户端的。

这里我们可以看到,用户信息是保存在Cookie中,也就相当于是保存在浏览器中,那就说用户可以随意修改用户信息,这是一种不安全的策略!

强调一点:Cookie无论是服务器发给浏览器还是浏览器发给服务器,都是放在请求头中的!

四、Cookie属性

下图中我们可以看到一个Cookie有:Name、Value、Domain、Path、Expires/Max-Age、Size、HTTP、Secure这些属性,那这些属性分别都有什么作用呢?我们来看看

爬虫工程师必须掌握的Cookie知识点都在这里

1. Name&Value

Name表示Cookie的名称,服务器就是通过name属性来获取某个Cookie值。

Value表示Cookie 的值,大多数情况下服务器会把这个value当作一个key去缓存中查询保存的数据。

2.Domain&Path

Domain表示可以访问此cookie的域名,下图我们以百度贴吧页的Cookie来讲解一下Domain属性。

爬虫工程师必须掌握的Cookie知识点都在这里

(编辑:济南站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!