爬虫在爬取时要保证不被网页发现在爬，频率不能太高，这个是怎么控制的啊，而且要尽量多的爬

hello1kitty 2012-09-27

rt，求大牛解答，不懂啊，怎样保证最高的效率，线程浪费最少啊

ansjsun 2012-09-28

被不被发现..和你无关..和对方的网站反爬侧率有关....这个得尝试调优...争取找到临界点

hello1kitty 2012-09-28

假如已经知道临界点，如何来控制线程的爬取，让利用率最高呢

ansjsun 写道

被不被发现..和你无关..和对方的网站反爬侧率有关....这个得尝试调优...争取找到临界点

feiyu_868 2012-12-25

你究竟理不理解什么是爬虫

Perhack 2013-04-01

用代理，用很多很多的代理，就能解决这个问题

380071587 2013-08-08

把网站网址发出了，看看是cookie的问题，还是证书的问题，采集的方式也有很多种的。采集方面应该没有什么问题。倒是线程安全方面，时间久了问题多。

df1012890048 2014-07-27

被发现会怎么样？？

marcolee 2014-09-27

将不同的网站分成不同的组存入不同的队列中，每台客户端自己来控制爬去同一一个网站的频率。。

flylynne 2014-11-23

很简单，设计一个随机定时器就可以了，只需要将线程sleep几秒即可

cangbaotu 2016-05-27

你可以试试神箭手云爬虫（http://www.shenjianshou.cn/），自带防屏蔽功能。