爬虫还是自己写好
sole
2008-09-16
用Heritrix,labin太复杂,而且很多function用不着,让人摸不着头脑。如果要很好的控制自己的爬虫,还是自己开发好。当然这些开源的crawler代码还是很值得研究
|
|
D04540214
2009-01-12
提个简单的问题,你做的爬虫想做成什么样子的?定制化的还是通用的 ?
|
|
mxsfengg
2009-01-20
很多自己写出来的问题还不如heritrix好用。
会遇到很多问题,当有一天你能够一一解决这些问题,你也就一牛人了。 |
|
kqy929
2009-02-11
正如楼上,我前段时间写了一个爬虫,但随着业务的扩展,没到一个月,已经添加了很多组件,慢慢的,自己都快无法忍受现结构。
正在准备设计下一个版本,在现程序还能跑,先研究下heritrix的结构。 |
|
tuoxie007
2009-05-02
自己开发爬虫很有困难,但可以更准确的定位需求,更正要的是这真是一件很有意思的事情啊
|
|
ansjsun
2009-05-10
我想文一下你采集的所有的网址。。放在什么地方了??你如何判断一个网址是否是重复采集??
|
|
tuoxie007
2009-05-24
ansjsun 写道 我想文一下你采集的所有的网址。。放在什么地方了??你如何判断一个网址是否是重复采集??
我不知哪位大侠如何做的哈,我觉得放在哪里要看需要,如果是网页内容的话放在数据库里比较方便而且便于管理,如果上资源比如图片啊什么大可以放在文件系统里。 一个URL是否采集过这个处理方法有很多,小型的一次性的可以直接在内存中保持URL的散列值存起来,下载之前先判断一下是否已经下过了。大型大就只能放在数据库里或配置文件中来,我是这么理解和这么做的 有什么更好的方法大家可以讨论一下哈 |
|
ywlqi
2009-09-26
sole 写道 用Heritrix,labin太复杂,而且很多function用不着,让人摸不着头脑。如果要很好的控制自己的爬虫,还是自己开发好。当然这些开源的crawler代码还是很值得研究
同意!特别是定向抓取,自己写还是比较爽的 |
|
huanyun007
2009-10-06
heritrix这东西真的比较复杂,当初遇到一个小问题调了好长的一段时间,它提供的功能也相当全面,通过一些配置能够满足大多数的需求,如果自己写,估计会遇到不少技术细节上的东西。
|
|
guava
2010-09-10
我也在做一个自己喜欢的爬虫 呵呵
|