HttpClient如何爬代登录的网站

zhongxia 2012-05-26

之前一直在学java网络爬虫,用Parser分析url后再将要的资源下载下来，但都是不带登录的页面，现在想爬带登录的,思路好像是将cookie信息保存下来，但是不知道怎么操作.

     HttpClient httpClient = new HttpClient();
     GetMethod getMethod = new GetMethod(url);   //url参数
     int statusCode = httpClient.executeMethod(getMethod);

然后根据状态码操作，现在有登录的页面直接跳转了，请大家给我点思路?

zhongxia 2012-05-26

刚发完，就看到旁边一篇关于爬人人网的文章，爬虫的道道好像很深阿

zc0604 2012-05-26

楼主可能还在用3.x版本的api吧，如果保存cookie其实可以有两种思路:
一是你自己去把登录后响应中的cookie值获取到之后，在下次响应时拼接起来，放在请求头部；二是可以利用client进行参数的设置，其中就用cookie的设置。client支持压缩，代理，和cookie的。

380071587 2013-08-08

java 方面的不太懂。C#方面的可以实现。自动登录，获取完整cookie。

zhangheng159 2014-08-12

1.HttpClient httpClient = new HttpClient(new HttpClientParams(), new SimpleHttpConnectionManager(false));
2.HttpClient 只实例化一个(即单例)，session和cookie就不用管了

发表回复

>>返回群组首页

HttpClient如何爬代登录的网站

相关讨论

相关资源推荐