使用nutch的全网爬行,如有新网址加入如何操作?
cbcfrank
2010-04-09
请问各位大侠,使用nutch的全网爬行,如有新网址加入,此时要如何操作?
我的想法是,假如一开始的网址文件时urls1(存放在res文件夹内), 首先按照规范,bin/nutch inject crawled/crawldb res/urls1, 然后依次 generate,fetch,updatedb,。。。 此时,我又有多个新的网址希望加入,新建 urls2文件(同样存放在res文件夹内), 问题在此,那么此时,我是否可以依然使用 bin/nutch inject crawled/crawldb res/urls2, 然后依次 generate,fetch,updatedb,。。。 并且不会影响我之前已经注入的网址的更新。 在此先谢过! |
|
wangzhenjava
2010-05-19
会影响你之前已经注入的网址,因为当你在对urls2进行爬虫的时候nutch重新生成了crawldb,linkdb……等文件。
|
相关讨论
相关资源推荐
- Json_decode 解析json字符串为NULL的解决方法(必看)
- php创建ftp账号密码,vsftp一键安装并部署ftp帐号密码目录
- ftp是php改为html_用PHP实现Ftp用户的在线管理
- php ftp 账号密码修改,用PHP即时添加,删除FTP帐号和更改FTP密码的函数 (转)
- 用PHP即时添加,删除FTP帐号和更改FTP密码的函数 (转)
- php ftp 账号密码修改,月光软件站 - 编程文档 - 其他语言 - 用PHP即时添加,删除FTP帐号和更改FTP密码的函数...
- Java泛型详解:<T>和Class<T>的使用。泛型类,泛型方法的详细使用实例
- SpringMVC中controller中方法返回类型为ResponseEntity<String>乱码的问题
- JSON解析之手动解析
- 解决PHP json_encode() 编码字符中包含<>时,转化为\u003E\u003C