Heritrix 能否设置间隔时间让其不间断地对同一网站进行抓取任务

lvxiaoxi 2008-11-17
大家好,现在项目碰到这个问题,如题,在对一网站抓取后,其state为Finished,但我想在这个网站内容有更新时,爬虫能自动地去抓取,也就是间隔一段时间后爬虫能再启动,我相信Heritrix能做到这一点,但我找不到些方面的资料,请问大家知道吗?这个间隔时间怎么设置的?
mood008 2009-03-05
我也在弄这方面资料
不行啊
hcyoo 2009-03-17
这个我用JSP写过一个类似的,只是弄个监听类,在每周一至周五白天每隔一分钟去抓取指定网页的数据到数据库中.楼主说的 Heritrix我没用过.
guoyunsky 2009-11-22
需要改源代码,HERITRIX只进行一次完整抓取。
我现在稍微改了下
381573578 2009-11-30
lvxiaoxi 写道
大家好,现在项目碰到这个问题,如题,在对一网站抓取后,其state为Finished,但我想在这个网站内容有更新时,爬虫能自动地去抓取,也就是间隔一段时间后爬虫能再启动,我相信Heritrix能做到这一点,但我找不到些方面的资料,请问大家知道吗?这个间隔时间怎么设置的?

这个问题最后怎么解决的呀
roshowl 2010-08-09
381573578 写道
lvxiaoxi 写道
大家好,现在项目碰到这个问题,如题,在对一网站抓取后,其state为Finished,但我想在这个网站内容有更新时,爬虫能自动地去抓取,也就是间隔一段时间后爬虫能再启动,我相信Heritrix能做到这一点,但我找不到些方面的资料,请问大家知道吗?这个间隔时间怎么设置的?

这个问题最后怎么解决的呀

mickeyzhang 2010-08-10
guoyunsky 写道
需要改源代码,HERITRIX只进行一次完整抓取。
我现在稍微改了下



可以提供一下修改的思路吗?
roshowl 2010-08-16
mickeyzhang 写道
guoyunsky 写道
需要改源代码,HERITRIX只进行一次完整抓取。
我现在稍微改了下



可以提供一下修改的思路吗?

同问
lsshappy007 2010-09-01
guoyunsky 写道
需要改源代码,HERITRIX只进行一次完整抓取。
我现在稍微改了下

同问
linwenbin 2010-09-06
设置休眠时间 循环抓取?
Global site tag (gtag.js) - Google Analytics