请教爬虫连接时出现500错误的问题

wfly0001 2009-05-15

我测试了一下前面提到lucene圈子里http://lucene-group.group.iteye.com/group/blog/177857的这个爬虫，我爬的站点是http://www.dianping.com/beijing，我可以用浏览器打开，但是程序SiteCapture里的capture()中

responseCode = uc.getResponseCode();

得到的responseCode却是500，内部服务器错误，请问一下大家这是什么问题啊

wfly0001 2009-05-18

我这么写了一个简单的测试，还是报500的错误，但是其他的网站可以,错误如下
java.io.IOException: Server returned HTTP response code: 500 for URL: http://www.dianping.com/beijing
at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
at Testdianping.main(Testdianping.java:9)
不知道到底该怎么改啊

import java.io.*;
import java.net.*;
public class Testdianping {
	public static void main(String[] args)
	{
		try {
			URL url = new URL("http://www.dianping.com/beijing");
			HttpURLConnection uc = (HttpURLConnection) url.openConnection();
			BufferedReader br = new BufferedReader(new InputStreamReader(uc.getInputStream(),"utf-8"));
			String str;
			while((str = br.readLine()) != null)
			{
				System.out.println(str);
			}
		} catch (MalformedURLException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
}

madonglingyan 2009-08-12

这个问题就在于你URLconnection链接后要判断是否已经取得连接，500错误就说明网站根本就有问题，所以你的getinputstream就理所当然的得不到任何东西。所以在取得URLconnection的时候要判断的，如果连接成功（当然可以设置一个超时）就接着取得数据流，如果连接都连接不上，还去什么。。。爬虫这个东西，自己好好做吧。。。当时我也是熬了五个通宵写了一个不带更新的爬虫

ywlqi 2009-09-26

我试了一下，500错误没碰到，但网站验证了USER_AGENT，模拟浏览器的USER_AGENT就能取到正常内容了

wfly0001 2009-09-27

恩感谢ywlqi，这么老的帖子都回复了加上user_agent就可以正常工作了：）

春天好 2016-05-27

来学习爬虫的知识来了
顺便向大家推荐一个爬虫教程的博客给大家
http://youmumzyx.iteye.com/

发表回复

>>返回群组首页

请教爬虫连接时出现500错误的问题

相关讨论

相关资源推荐