弱弱地说一句,爬虫方面还是ruby牛。。不信你就喷~!
Reset
2011-06-07
fuliang 写道 zfj.rails 写道 写爬虫已经写到烦了。没多大挑战,解析html,scan,search,重复劳动呀。
看了楼主写的爬虫,基本是个toy。真正的爬虫需要很多挑战的。 比如爬虫支持ajax,防死锁,高并发等 |
|
happysoul
2011-06-07
带宽还是最主要的问题啊~~
还有就是有的地方开了防止采集,一定时间内访问过于频繁直接会屏蔽! |
|
zfj.rails
2011-06-07
happysoul 写道 带宽还是最主要的问题啊~~
还有就是有的地方开了防止采集,一定时间内访问过于频繁直接会屏蔽! 这个倒是不用怕,对付禁IP,一是用代理库,二是路由自动拨号(ADSL上网型) 刚开始,路由器自动拨号的程序没写好,有一天一小时内重拨了上百次。把我这个新买的无线路由都拨得不好用了。 |
|
nakupanda
2011-06-08
你们到底在弄爬虫还是采集 ?
|
|
wmcoo
2011-06-08
nakupanda 写道 你们到底在弄爬虫还是采集 ?
应该叫采集器 |
|
D04540214
2011-06-08
fuliang 写道 zfj.rails 写道 写爬虫已经写到烦了。没多大挑战,解析html,scan,search,重复劳动呀。
看了楼主写的爬虫,基本是个toy。真正的爬虫需要很多挑战的。 有道理, 入门低,深入难! 考虑的点多 |
|
李丹.杭州
2011-11-01
的确很烦 xml xpath...
|
|
george6684
2011-12-06
要写得够智能 很难啊。。
|
|
p_MISS
2011-12-22
爬虫依始——采集器,谁给个好用点的呗,我学习一下,我是这方面新人
|