关于Heritrix抓取淘宝商品信息的问题。求各位大虾们给给力
有你话温柔
2010-11-29
本人最近在做一个课题,要用爬虫收集淘宝网商品信息:商品的介绍信息,图片,及url地址。选择了Heritrix,抓取商品信息的时候需要扩展它的功能,编写类继承FrontierScheduler,下面是部分代码:
import java.util.logging.Logger; import org.archive.crawler.datamodel.CandidateURI; import org.archive.crawler.postprocessor.FronmtierScheduler; public class Schedulertaobao extends FrontierScheduler{ private static Logger LOGGER=Logger.getLogger(Schedulertaobao.class.getName()); public Schedulertaobao(String name){ super(name); } protected void schedule(CandidateURI caUri){ String url=caUri.toString(); try{ if(url.indexOf("www.taobao.com/")!=-1 ||url.indexOf("robots.txt")!=-1 ||url.indexOf("dns:")!=-1){ getController().getFrontier().schedule(caUri); } else{ return; } }catch(Exception e){ e.printStackTrace(); } } } www.taobao.com这个链接肯定是不行的,抓的信息量太大,不好处理。我现在已经分析了淘宝商品页链接一般是这样http://item.taobao.com/item.htm? 其中一个商品图片链接是这样的:http://img04.taobaocdn.com/bao/uploaded/i4/T1NBpPXjFtXXXX.iM6_061933.jpg_310x310.jpg 由于本人是新手,且对正则匹配这块不熟,所以不知道这段代码如何实现。 |
|
卒子99
2010-12-05
用淘宝的OPEN API嘛
|
|
wangxiaolongbob
2011-08-24
扩展heritrix里面的Frontier,至于怎么扩展楼主去搜一下,有很多的
|