爬虫还是自己写好

sole 2008-09-16
用Heritrix,labin太复杂,而且很多function用不着,让人摸不着头脑。如果要很好的控制自己的爬虫,还是自己开发好。当然这些开源的crawler代码还是很值得研究
D04540214 2009-01-12
提个简单的问题,你做的爬虫想做成什么样子的?定制化的还是通用的 ?
mxsfengg 2009-01-20
很多自己写出来的问题还不如heritrix好用。
会遇到很多问题,当有一天你能够一一解决这些问题,你也就一牛人了。
kqy929 2009-02-11
正如楼上,我前段时间写了一个爬虫,但随着业务的扩展,没到一个月,已经添加了很多组件,慢慢的,自己都快无法忍受现结构。
正在准备设计下一个版本,在现程序还能跑,先研究下heritrix的结构。
tuoxie007 2009-05-02
自己开发爬虫很有困难,但可以更准确的定位需求,更正要的是这真是一件很有意思的事情啊
ansjsun 2009-05-10
我想文一下你采集的所有的网址。。放在什么地方了??你如何判断一个网址是否是重复采集??
tuoxie007 2009-05-24
ansjsun 写道
我想文一下你采集的所有的网址。。放在什么地方了??你如何判断一个网址是否是重复采集??

我不知哪位大侠如何做的哈,我觉得放在哪里要看需要,如果是网页内容的话放在数据库里比较方便而且便于管理,如果上资源比如图片啊什么大可以放在文件系统里。
一个URL是否采集过这个处理方法有很多,小型的一次性的可以直接在内存中保持URL的散列值存起来,下载之前先判断一下是否已经下过了。大型大就只能放在数据库里或配置文件中来,我是这么理解和这么做的
有什么更好的方法大家可以讨论一下哈
ywlqi 2009-09-26
sole 写道
用Heritrix,labin太复杂,而且很多function用不着,让人摸不着头脑。如果要很好的控制自己的爬虫,还是自己开发好。当然这些开源的crawler代码还是很值得研究

同意!特别是定向抓取,自己写还是比较爽的
huanyun007 2009-10-06
heritrix这东西真的比较复杂,当初遇到一个小问题调了好长的一段时间,它提供的功能也相当全面,通过一些配置能够满足大多数的需求,如果自己写,估计会遇到不少技术细节上的东西。
guava 2010-09-10
我也在做一个自己喜欢的爬虫 呵呵
Global site tag (gtag.js) - Google Analytics