Heritrix 能否设置间隔时间让其不间断地对同一网站进行抓取任务
lvxiaoxi
2008-11-17
大家好,现在项目碰到这个问题,如题,在对一网站抓取后,其state为Finished,但我想在这个网站内容有更新时,爬虫能自动地去抓取,也就是间隔一段时间后爬虫能再启动,我相信Heritrix能做到这一点,但我找不到些方面的资料,请问大家知道吗?这个间隔时间怎么设置的?
|
|
mood008
2009-03-05
我也在弄这方面资料
不行啊 |
|
hcyoo
2009-03-17
这个我用JSP写过一个类似的,只是弄个监听类,在每周一至周五白天每隔一分钟去抓取指定网页的数据到数据库中.楼主说的 Heritrix我没用过.
|
|
guoyunsky
2009-11-22
需要改源代码,HERITRIX只进行一次完整抓取。
我现在稍微改了下 |
|
381573578
2009-11-30
lvxiaoxi 写道 大家好,现在项目碰到这个问题,如题,在对一网站抓取后,其state为Finished,但我想在这个网站内容有更新时,爬虫能自动地去抓取,也就是间隔一段时间后爬虫能再启动,我相信Heritrix能做到这一点,但我找不到些方面的资料,请问大家知道吗?这个间隔时间怎么设置的?
这个问题最后怎么解决的呀 |
|
roshowl
2010-08-09
381573578 写道 lvxiaoxi 写道 大家好,现在项目碰到这个问题,如题,在对一网站抓取后,其state为Finished,但我想在这个网站内容有更新时,爬虫能自动地去抓取,也就是间隔一段时间后爬虫能再启动,我相信Heritrix能做到这一点,但我找不到些方面的资料,请问大家知道吗?这个间隔时间怎么设置的?
这个问题最后怎么解决的呀 |
|
mickeyzhang
2010-08-10
guoyunsky 写道 需要改源代码,HERITRIX只进行一次完整抓取。
我现在稍微改了下 可以提供一下修改的思路吗? |
|
roshowl
2010-08-16
mickeyzhang 写道 guoyunsky 写道 需要改源代码,HERITRIX只进行一次完整抓取。
我现在稍微改了下 可以提供一下修改的思路吗? 同问 |
|
lsshappy007
2010-09-01
guoyunsky 写道 需要改源代码,HERITRIX只进行一次完整抓取。
我现在稍微改了下 同问 |
|
linwenbin
2010-09-06
设置休眠时间 循环抓取?
|