使用nutch的全网爬行,如有新网址加入如何操作?

cbcfrank 2010-04-09
请问各位大侠,使用nutch的全网爬行,如有新网址加入,此时要如何操作?

我的想法是,假如一开始的网址文件时urls1(存放在res文件夹内),

首先按照规范,bin/nutch inject crawled/crawldb res/urls1,

然后依次 generate,fetch,updatedb,。。。

此时,我又有多个新的网址希望加入,新建 urls2文件(同样存放在res文件夹内),
问题在此,那么此时,我是否可以依然使用

bin/nutch inject crawled/crawldb res/urls2,
然后依次 generate,fetch,updatedb,。。。

并且不会影响我之前已经注入的网址的更新。

在此先谢过!
wangzhenjava 2010-05-19
会影响你之前已经注入的网址,因为当你在对urls2进行爬虫的时候nutch重新生成了crawldb,linkdb……等文件。
Global site tag (gtag.js) - Google Analytics