关于Heritrix抓取淘宝商品信息的问题。求各位大虾们给给力

有你话温柔 2010-11-29

本人最近在做一个课题，要用爬虫收集淘宝网商品信息：商品的介绍信息，图片，及url地址。选择了Heritrix，抓取商品信息的时候需要扩展它的功能，编写类继承FrontierScheduler，下面是部分代码：
import java.util.logging.Logger;
import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.postprocessor.FronmtierScheduler;

public class Schedulertaobao extends FrontierScheduler{
private static Logger LOGGER=Logger.getLogger(Schedulertaobao.class.getName());

public Schedulertaobao(String name){
super(name);
}

protected void schedule(CandidateURI caUri){
String url=caUri.toString();
try{
if(url.indexOf("www.taobao.com/")!=-1
||url.indexOf("robots.txt")!=-1
||url.indexOf("dns:")!=-1){
getController().getFrontier().schedule(caUri);
}
else{
return;
}
}catch(Exception e){
e.printStackTrace();
}
}
}

www.taobao.com这个链接肯定是不行的，抓的信息量太大，不好处理。我现在已经分析了淘宝商品页链接一般是这样http://item.taobao.com/item.htm?
其中一个商品图片链接是这样的：http://img04.taobaocdn.com/bao/uploaded/i4/T1NBpPXjFtXXXX.iM6_061933.jpg_310x310.jpg
由于本人是新手，且对正则匹配这块不熟，所以不知道这段代码如何实现。

卒子99 2010-12-05

用淘宝的OPEN API嘛

wangxiaolongbob 2011-08-24

扩展heritrix里面的Frontier，至于怎么扩展楼主去搜一下，有很多的

发表回复

>>返回群组首页

关于Heritrix抓取淘宝商品信息的问题。求各位大虾们给给力

相关讨论

相关资源推荐