HttpClient如何爬代登录的网站

zhongxia 2012-05-26
之前一直在学java网络爬虫,用Parser分析url后再将要的资源下载下来,但都是不带登录的页面,现在想爬带登录的,思路好像是将cookie信息保存下来,但是不知道怎么操作.
     HttpClient httpClient = new HttpClient();
     GetMethod getMethod = new GetMethod(url);   //url参数
     int statusCode = httpClient.executeMethod(getMethod);

然后根据状态码操作,现在有登录的页面直接跳转了,请大家给我点思路?
zhongxia 2012-05-26
刚发完,就看到旁边一篇关于爬人人网的文章,爬虫的道道好像很深阿
zc0604 2012-05-26
楼主可能还在用3.x版本的api吧,如果保存cookie其实可以有两种思路:
一是你自己去把登录后响应中的cookie值获取到之后,在下次响应时拼接起来,放在请求头部;二是可以利用client进行参数的设置,其中就用cookie的设置。client支持压缩,代理,和cookie的。
380071587 2013-08-08
java 方面的不太懂。C#方面的可以实现。自动登录,获取完整cookie。
zhangheng159 2014-08-12
1.HttpClient httpClient = new HttpClient(new HttpClientParams(), new SimpleHttpConnectionManager(false));
2.HttpClient 只实例化一个(即单例),session和cookie就不用管了
Global site tag (gtag.js) - Google Analytics