如何提高爬虫采集数据的速度
onebody
2009-05-28
小弟最近写了个爬虫, 提取单个页面中的数据方法主要是正则表达式, 但感觉速度不是很快, 经测试得出以下数据:
1.get 一个网址平均时间为 3秒左右, 有时网速不好时,速度更慢; 2.得到网页源码后,平均需要从页面中提取 3~15项数据, 平均时间需要 5左右; 采集线程处理逻辑: 从[待处理队列]中得到一个URL -> get网页源码 -> 格式化源码-> 提取符合的URL并填入[待处理队列]->提取数据项->存入数据库 请各位高手多指教,期待中... 可以QQ:16316104(注明:爬虫) MSN:onebodysoftware@hotmail.com 交流 |
|
onebody
2009-05-31
没人帮我吗?
|
|
imjl
2009-05-31
程序有问题
检查第一步get页面信息,,查找瓶颈,最简单的方法整个过程切分成不同块,然后检查其所占用时间 第二步提取数据看看能否缩短时间,以抓取bbs为例,我一般一个正则 分两个部分,,第一部分:多线程抓取页面到本地,第二部分多线程分析页面 思考如何充分利用网络带宽和磁盘性能 ps: 别留IM,别短信他人。 又不是幼儿园,一对一的回答你 |
|
onebody
2009-06-02
谢谢指点,有思路了.尝试一下
|
|
quxiuer
2009-06-03
可否把你的程序分享一下
|