爬虫还是自己写好

群组首页 → 互联网 → 网络爬虫 → 论坛

发表回复

sole 2008-09-16

用Heritrix,labin太复杂，而且很多function用不着,让人摸不着头脑。如果要很好的控制自己的爬虫，还是自己开发好。当然这些开源的crawler代码还是很值得研究

D04540214 2009-01-12

提个简单的问题，你做的爬虫想做成什么样子的？定制化的还是通用的？

mxsfengg 2009-01-20

很多自己写出来的问题还不如heritrix好用。
会遇到很多问题，当有一天你能够一一解决这些问题，你也就一牛人了。

kqy929 2009-02-11

正如楼上，我前段时间写了一个爬虫，但随着业务的扩展，没到一个月，已经添加了很多组件，慢慢的，自己都快无法忍受现结构。
正在准备设计下一个版本，在现程序还能跑，先研究下heritrix的结构。

tuoxie007 2009-05-02

自己开发爬虫很有困难，但可以更准确的定位需求，更正要的是这真是一件很有意思的事情啊

ansjsun 2009-05-10

我想文一下你采集的所有的网址。。放在什么地方了？？你如何判断一个网址是否是重复采集？？

tuoxie007 2009-05-24

ansjsun 写道

我想文一下你采集的所有的网址。。放在什么地方了？？你如何判断一个网址是否是重复采集？？

我不知哪位大侠如何做的哈，我觉得放在哪里要看需要，如果是网页内容的话放在数据库里比较方便而且便于管理，如果上资源比如图片啊什么大可以放在文件系统里。
一个URL是否采集过这个处理方法有很多，小型的一次性的可以直接在内存中保持URL的散列值存起来，下载之前先判断一下是否已经下过了。大型大就只能放在数据库里或配置文件中来，我是这么理解和这么做的
有什么更好的方法大家可以讨论一下哈

ywlqi 2009-09-26

sole 写道

同意！特别是定向抓取，自己写还是比较爽的

huanyun007 2009-10-06

heritrix这东西真的比较复杂，当初遇到一个小问题调了好长的一段时间，它提供的功能也相当全面，通过一些配置能够满足大多数的需求，如果自己写，估计会遇到不少技术细节上的东西。

guava 2010-09-10

我也在做一个自己喜欢的爬虫呵呵

发表回复

>>返回群组首页

爬虫还是自己写好

相关讨论

相关资源推荐