爬虫在爬取时要保证不被网页发现在爬,频率不能太高,这个是怎么控制的啊,而且要尽量多的爬

hello1kitty 2012-09-27
rt,求大牛解答,不懂啊,怎样保证最高的效率,线程浪费最少啊
ansjsun 2012-09-28
被不被发现..和你无关..和对方的网站反爬侧率有关....这个得尝试调优...争取找到临界点
hello1kitty 2012-09-28
假如已经知道临界点,如何来控制线程的爬取,让利用率最高呢

ansjsun 写道
被不被发现..和你无关..和对方的网站反爬侧率有关....这个得尝试调优...争取找到临界点

feiyu_868 2012-12-25
你究竟理不理解什么是爬虫
Perhack 2013-04-01
用代理,用很多很多的代理,就能解决这个问题
380071587 2013-08-08
把网站网址发出了,看看是cookie的问题,还是证书的问题,采集的方式也有很多种的。采集方面应该没有什么问题。倒是线程安全方面,时间久了问题多。
df1012890048 2014-07-27
被发现会怎么样??
marcolee 2014-09-27
将不同的网站分成不同的组存入不同的队列中,每台客户端自己来控制爬去同一一个网站的频率。。
flylynne 2014-11-23
很简单,设计一个随机定时器就可以了,只需要将线程sleep几秒即可
cangbaotu 2016-05-27
你可以试试神箭手云爬虫(http://www.shenjianshou.cn/),自带防屏蔽功能。
Global site tag (gtag.js) - Google Analytics