爬虫在爬取时要保证不被网页发现在爬,频率不能太高,这个是怎么控制的啊,而且要尽量多的爬
hello1kitty
2012-09-27
rt,求大牛解答,不懂啊,怎样保证最高的效率,线程浪费最少啊
|
|
ansjsun
2012-09-28
被不被发现..和你无关..和对方的网站反爬侧率有关....这个得尝试调优...争取找到临界点
|
|
hello1kitty
2012-09-28
假如已经知道临界点,如何来控制线程的爬取,让利用率最高呢
ansjsun 写道 被不被发现..和你无关..和对方的网站反爬侧率有关....这个得尝试调优...争取找到临界点
|
|
feiyu_868
2012-12-25
你究竟理不理解什么是爬虫
|
|
Perhack
2013-04-01
用代理,用很多很多的代理,就能解决这个问题
|
|
380071587
2013-08-08
把网站网址发出了,看看是cookie的问题,还是证书的问题,采集的方式也有很多种的。采集方面应该没有什么问题。倒是线程安全方面,时间久了问题多。
|
|
df1012890048
2014-07-27
被发现会怎么样??
|
|
marcolee
2014-09-27
将不同的网站分成不同的组存入不同的队列中,每台客户端自己来控制爬去同一一个网站的频率。。
|
|
flylynne
2014-11-23
很简单,设计一个随机定时器就可以了,只需要将线程sleep几秒即可
|
|
cangbaotu
2016-05-27
你可以试试神箭手云爬虫(http://www.shenjianshou.cn/),自带防屏蔽功能。
|
相关讨论
相关资源推荐
- 不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据
- Python爬虫 | 爬取贝壳找房8万+二手房源,看看普通人在北京买房是有多难!
- python爬虫多久能学会-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...
- 爬虫—获取网页
- python爬虫实战——小说爬取
- python爬虫怎么爬同一个网站的多页数据-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...
- beautifulsoup网页爬虫解析_Python爬虫快速入门,静态网页爬取
- python爬虫爬取多个页面_Python爬虫笔记:爬取单个页面
- 爬虫总是断?用这个手残党也能轻松解决网站反爬
- 8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)