在heritrix中如何让一个既是入口的URL进入处理队列但又不让其写进硬盘?
lvxiaoxi
2008-08-19
如题:比如一个index.html 的URL,它是一个内容的入口,但我想抓取内面链接的内容后,又不想爬这个网页,请问高手有没做过这问题? ps:我不想在抓取后再加一道工序处理,比如删掉那些index.html文件. 希望有经验的高手多多指教,在些先感谢!
|
|
flykete
2008-08-20
是不是可以改写writer类来实现----在writer的inprocess里根据curi判断是不是index.html,若是就不进行操作。
|
|
lvxiaoxi
2008-08-25
是的,已解决了,还是谢谢你!!
|
|
wangxiaolongbob
2011-08-24
楼主,你是怎么解决的,求指导呀!!
|