请教爬虫连接时出现500错误的问题
wfly0001
2009-05-15
我测试了一下前面提到lucene圈子里http://lucene-group.group.iteye.com/group/blog/177857的这个爬虫,我爬的站点是http://www.dianping.com/beijing,我可以用浏览器打开,但是程序SiteCapture里的capture()中
responseCode = uc.getResponseCode();得到的responseCode却是500,内部服务器错误,请问一下大家这是什么问题啊 |
|
wfly0001
2009-05-18
我这么写了一个简单的测试,还是报500的错误,但是其他的网站可以,错误如下
java.io.IOException: Server returned HTTP response code: 500 for URL: http://www.dianping.com/beijing at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source) at Testdianping.main(Testdianping.java:9) 不知道到底该怎么改啊 import java.io.*; import java.net.*; public class Testdianping { public static void main(String[] args) { try { URL url = new URL("http://www.dianping.com/beijing"); HttpURLConnection uc = (HttpURLConnection) url.openConnection(); BufferedReader br = new BufferedReader(new InputStreamReader(uc.getInputStream(),"utf-8")); String str; while((str = br.readLine()) != null) { System.out.println(str); } } catch (MalformedURLException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } } |
|
madonglingyan
2009-08-12
这个问题就在于你URLconnection链接后要判断是否已经取得连接,500错误就说明网站根本就有问题,所以你的getinputstream就理所当然的得不到任何东西。所以在取得URLconnection的时候要判断的,如果连接成功(当然可以设置一个超时)就接着取得数据流,如果连接都连接不上,还去什么。。。爬虫这个东西,自己好好做吧。。。当时我也是熬了五个通宵写了一个不带更新的爬虫
|
|
ywlqi
2009-09-26
我试了一下,500错误没碰到,但网站验证了USER_AGENT,模拟浏览器的USER_AGENT就能取到正常内容了
|
|
wfly0001
2009-09-27
恩 感谢ywlqi,这么老的帖子都回复了 加上user_agent就可以正常工作了:)
|
|
春天好
2016-05-27
来学习爬虫的知识来了
顺便向大家推荐一个爬虫教程的博客给大家 http://youmumzyx.iteye.com/ |