请教爬虫连接时出现500错误的问题

wfly0001 2009-05-15
我测试了一下前面提到lucene圈子里http://lucene-group.group.iteye.com/group/blog/177857的这个爬虫,我爬的站点是http://www.dianping.com/beijing,我可以用浏览器打开,但是程序SiteCapture里的capture()中
responseCode = uc.getResponseCode();
得到的responseCode却是500,内部服务器错误,请问一下大家这是什么问题啊
wfly0001 2009-05-18
我这么写了一个简单的测试,还是报500的错误,但是其他的网站可以,错误如下
java.io.IOException: Server returned HTTP response code: 500 for URL: http://www.dianping.com/beijing
at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
at Testdianping.main(Testdianping.java:9)
不知道到底该怎么改啊
import java.io.*;
import java.net.*;
public class Testdianping {
	public static void main(String[] args)
	{
		try {
			URL url = new URL("http://www.dianping.com/beijing");
			HttpURLConnection uc = (HttpURLConnection) url.openConnection();
			BufferedReader br = new BufferedReader(new InputStreamReader(uc.getInputStream(),"utf-8"));
			String str;
			while((str = br.readLine()) != null)
			{
				System.out.println(str);
			}
		} catch (MalformedURLException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
}
madonglingyan 2009-08-12
这个问题就在于你URLconnection链接后要判断是否已经取得连接,500错误就说明网站根本就有问题,所以你的getinputstream就理所当然的得不到任何东西。所以在取得URLconnection的时候要判断的,如果连接成功(当然可以设置一个超时)就接着取得数据流,如果连接都连接不上,还去什么。。。爬虫这个东西,自己好好做吧。。。当时我也是熬了五个通宵写了一个不带更新的爬虫
ywlqi 2009-09-26
我试了一下,500错误没碰到,但网站验证了USER_AGENT,模拟浏览器的USER_AGENT就能取到正常内容了
wfly0001 2009-09-27
恩 感谢ywlqi,这么老的帖子都回复了 加上user_agent就可以正常工作了:)
春天好 2016-05-27
来学习爬虫的知识来了
顺便向大家推荐一个爬虫教程的博客给大家
http://youmumzyx.iteye.com/
Global site tag (gtag.js) - Google Analytics