使用nutch的全网爬行，如有新网址加入如何操作？

cbcfrank 2010-04-09

请问各位大侠，使用nutch的全网爬行，如有新网址加入，此时要如何操作？

我的想法是，假如一开始的网址文件时urls1(存放在res文件夹内)，

首先按照规范，bin/nutch inject crawled/crawldb res/urls1，

然后依次 generate，fetch，updatedb，。。。

此时，我又有多个新的网址希望加入，新建 urls2文件(同样存放在res文件夹内)，
问题在此，那么此时，我是否可以依然使用

bin/nutch inject crawled/crawldb res/urls2，
然后依次 generate，fetch，updatedb，。。。

并且不会影响我之前已经注入的网址的更新。

在此先谢过！

wangzhenjava 2010-05-19

会影响你之前已经注入的网址，因为当你在对urls2进行爬虫的时候nutch重新生成了crawldb，linkdb……等文件。

发表回复

>>返回群组首页

使用nutch的全网爬行，如有新网址加入如何操作？

相关讨论

相关资源推荐