nutch每天能爬行多少个网页?

xubogang 2010-07-23
在看nutch文档时,看到这样一段话:
           nutch必须能够做到的是:
           每个月抓取几十亿的网页
             为这些网页维护索引
             。。。。

然后我就在想就算nutch一个月(按30天算)抓取十亿的网页,一个网页平均10k,那就需要10T的硬盘,那也就是说每天能爬333.333.. M
   这是真的吗?
ccx007 2010-07-23
这个要考虑很多因素,比如网速,目标网站的响应速度,还有就是目标网站有没有拦截...etc
xubogang 2010-07-23
好模糊~~~
Global site tag (gtag.js) - Google Analytics