Java爬虫入门简介(四)——HttpClient保存使用Cookie登录
其他爬虫博客:
Java爬虫入门简介(一) —— HttpClient请求 Java爬虫入门简介(二) —— HttpClient详细使用方法 Java爬虫入门简介(三) —— Jsoup解析HTML页面 Java爬虫入门简介(四) —— HttpClient保存和使用Cookie登录(本篇博客)
Cookie是浏览器存储存储用户信息的一小段文本,它保存了用户的ID等信息,这些信息可以被服务器端识别,并作为标识用户的手段,以此来判定用户是不是第一次访问。网络上有这样一段解释,很清楚。
浏览器与WEB服务器之间是使用HTTP协议进行通信的;而HTTP协议是无状态协议。也就是说,当某个用户发出页面请求时,WEB服务器只是简单的进行响应,然后就关闭与该用户的连接。因此当一个请求发送到WEB服务器时,无论其是否是第一次来访,服务器都会把它当作第一次来对待,这样的不好之处可想而知。为了弥补这个缺陷,Netscape开发出了cookie这个有效的工具来保存某个用户的识别信息, 它是一种WEB服务器通过浏览器在访问者的硬盘上存储信息的手段。 它是服务器发送给浏览器的体积很小的纯文本信息。
定义:cookie是Web浏览器存储的少量命名数据,它与某个特定的网页和网站关联在一起。cookie实际上和某一网站和网页关联的,保存用户一定信息的文本文件。
Cookie是当你浏览某网站时,网站存储在你机器上的一个小文本文件,它记录了你的用户ID,密码、浏览过的网页、停留的时间等信息,当你再次来到该网站时,网站通过读取Cookie,得知你的相关信息,就可以做出相应的动作,如在页面显示欢迎你的标语,或者让你不用输入ID、密码就直接登录等等。
在这篇博客中,我们将描述在HttpClient 4.X中,如何使用Cookie,保存Cookie,并利用已登录的Cookie访问页面。
