关于Heritrix抓取淘宝商品信息的问题。求各位大虾们给给力

有你话温柔 2010-11-29
本人最近在做一个课题,要用爬虫收集淘宝网商品信息:商品的介绍信息,图片,及url地址。选择了Heritrix,抓取商品信息的时候需要扩展它的功能,编写类继承FrontierScheduler,下面是部分代码:
import java.util.logging.Logger;
import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.postprocessor.FronmtierScheduler;

public class  Schedulertaobao extends FrontierScheduler{
private static Logger LOGGER=Logger.getLogger(Schedulertaobao.class.getName());

public Schedulertaobao(String name){
super(name);
}

protected void schedule(CandidateURI caUri){
String url=caUri.toString();
try{
if(url.indexOf("www.taobao.com/")!=-1
||url.indexOf("robots.txt")!=-1
||url.indexOf("dns:")!=-1){
getController().getFrontier().schedule(caUri);
}
else{
return;
}
}catch(Exception e){
e.printStackTrace();
}
}
}

www.taobao.com这个链接肯定是不行的,抓的信息量太大,不好处理。我现在已经分析了淘宝商品页链接一般是这样http://item.taobao.com/item.htm?
其中一个商品图片链接是这样的:http://img04.taobaocdn.com/bao/uploaded/i4/T1NBpPXjFtXXXX.iM6_061933.jpg_310x310.jpg
由于本人是新手,且对正则匹配这块不熟,所以不知道这段代码如何实现。
卒子99 2010-12-05
用淘宝的OPEN API嘛
wangxiaolongbob 2011-08-24
扩展heritrix里面的Frontier,至于怎么扩展楼主去搜一下,有很多的
Global site tag (gtag.js) - Google Analytics