nutch每天能爬行多少个网页?
xubogang
2010-07-23
在看nutch文档时,看到这样一段话:
nutch必须能够做到的是: 每个月抓取几十亿的网页 为这些网页维护索引 。。。。 然后我就在想就算nutch一个月(按30天算)抓取十亿的网页,一个网页平均10k,那就需要10T的硬盘,那也就是说每天能爬333.333.. M 这是真的吗? |
|
ccx007
2010-07-23
这个要考虑很多因素,比如网速,目标网站的响应速度,还有就是目标网站有没有拦截...etc
|
|
xubogang
2010-07-23
好模糊~~~
|