如何提高爬虫采集数据的速度

onebody 2009-05-28
小弟最近写了个爬虫, 提取单个页面中的数据方法主要是正则表达式, 但感觉速度不是很快, 经测试得出以下数据:

1.get 一个网址平均时间为 3秒左右, 有时网速不好时,速度更慢;
2.得到网页源码后,平均需要从页面中提取 3~15项数据, 平均时间需要 5左右;


采集线程处理逻辑:

从[待处理队列]中得到一个URL -> get网页源码 -> 格式化源码-> 提取符合的URL并填入[待处理队列]->提取数据项->存入数据库


请各位高手多指教,期待中...
可以QQ:16316104(注明:爬虫)  MSN:onebodysoftware@hotmail.com 交流
onebody 2009-05-31
没人帮我吗?
imjl 2009-05-31
程序有问题

检查第一步get页面信息,,查找瓶颈,最简单的方法整个过程切分成不同块,然后检查其所占用时间

第二步提取数据看看能否缩短时间,以抓取bbs为例,我一般一个正则


分两个部分,,第一部分:多线程抓取页面到本地,第二部分多线程分析页面

思考如何充分利用网络带宽和磁盘性能


ps: 别留IM,别短信他人。 又不是幼儿园,一对一的回答你
onebody 2009-06-02
谢谢指点,有思路了.尝试一下
quxiuer 2009-06-03
可否把你的程序分享一下
Global site tag (gtag.js) - Google Analytics