弱弱地说一句,爬虫方面还是ruby牛。。不信你就喷~!

Reset 2011-06-07
fuliang 写道
zfj.rails 写道
写爬虫已经写到烦了。没多大挑战,解析html,scan,search,重复劳动呀。

看了楼主写的爬虫,基本是个toy。真正的爬虫需要很多挑战的。


比如爬虫支持ajax,防死锁,高并发等
happysoul 2011-06-07
带宽还是最主要的问题啊~~
还有就是有的地方开了防止采集,一定时间内访问过于频繁直接会屏蔽!
zfj.rails 2011-06-07
happysoul 写道
带宽还是最主要的问题啊~~
还有就是有的地方开了防止采集,一定时间内访问过于频繁直接会屏蔽!


这个倒是不用怕,对付禁IP,一是用代理库,二是路由自动拨号(ADSL上网型)

刚开始,路由器自动拨号的程序没写好,有一天一小时内重拨了上百次。把我这个新买的无线路由都拨得不好用了。
nakupanda 2011-06-08
你们到底在弄爬虫还是采集 ?
wmcoo 2011-06-08
nakupanda 写道
你们到底在弄爬虫还是采集 ?

应该叫采集器
D04540214 2011-06-08
fuliang 写道
zfj.rails 写道
写爬虫已经写到烦了。没多大挑战,解析html,scan,search,重复劳动呀。

看了楼主写的爬虫,基本是个toy。真正的爬虫需要很多挑战的。


有道理, 入门低,深入难! 考虑的点多
李丹.杭州 2011-11-01
的确很烦 xml xpath...
george6684 2011-12-06
要写得够智能 很难啊。。
p_MISS 2011-12-22
爬虫依始——采集器,谁给个好用点的呗,我学习一下,我是这方面新人
Global site tag (gtag.js) - Google Analytics