HttpClient如何爬代登录的网站
zhongxia
2012-05-26
之前一直在学java网络爬虫,用Parser分析url后再将要的资源下载下来,但都是不带登录的页面,现在想爬带登录的,思路好像是将cookie信息保存下来,但是不知道怎么操作.
HttpClient httpClient = new HttpClient(); GetMethod getMethod = new GetMethod(url); //url参数 int statusCode = httpClient.executeMethod(getMethod); 然后根据状态码操作,现在有登录的页面直接跳转了,请大家给我点思路? |
|
zhongxia
2012-05-26
刚发完,就看到旁边一篇关于爬人人网的文章,爬虫的道道好像很深阿
|
|
zc0604
2012-05-26
楼主可能还在用3.x版本的api吧,如果保存cookie其实可以有两种思路:
一是你自己去把登录后响应中的cookie值获取到之后,在下次响应时拼接起来,放在请求头部;二是可以利用client进行参数的设置,其中就用cookie的设置。client支持压缩,代理,和cookie的。 |
|
380071587
2013-08-08
java 方面的不太懂。C#方面的可以实现。自动登录,获取完整cookie。
|
|
zhangheng159
2014-08-12
1.HttpClient httpClient = new HttpClient(new HttpClientParams(), new SimpleHttpConnectionManager(false));
2.HttpClient 只实例化一个(即单例),session和cookie就不用管了 |