高度可定制爬虫

anson2003 2009-05-12
我有一个通用的爬虫(UI)。
可定制(服务搭建暂不提供)。

地址:http://www.box.net/shared/c9gub1hk8e
使用说明书下载:http://www.box.net/shared/horu7hybcq

如有搭建服务器的,我可以配合。

需要jdk 1.6


如有需要可以开源。一起加强爬虫。

onebody 2009-05-28
可以提供源码不?
imjl 2009-05-31
下了doc看了下,太复杂了

而且通用么? 还是要自己针对不同页面写正则的

anson2003 2009-06-09
通用的,可定制的就只做到这了。把网页的数据结构化。以各种形式存储。

具体可以看demo:
http://anson2003.iteye.com/
zgtxl520 2009-06-15
没有源码 怎么定制啊 通过配置文件 ? 建议把源码贴出来 通过配置接口定制
kqy929 2009-06-15
我一直从事爬虫开发,也有自己的一套爬虫系统。
能详细介绍下你的爬虫的实现么?
想学习,学习。
imjl 2009-06-16
anson2003 写道
通用的,可定制的就只做到这了。把网页的数据结构化。以各种形式存储。

具体可以看demo:
http://anson2003.iteye.com/



可能我们两个对通用理解不一致。

我理解的通用,比如爬取论坛,无任何配置,自动分析,自动将数据正确对应抓取到本地,整个过程没有任何人工干预。
anson2003 2009-06-28
imjl 写道
anson2003 写道
通用的,可定制的就只做到这了。把网页的数据结构化。以各种形式存储。

具体可以看demo:
http://anson2003.iteye.com/



可能我们两个对通用理解不一致。

我理解的通用,比如爬取论坛,无任何配置,自动分析,自动将数据正确对应抓取到本地,整个过程没有任何人工干预。


那不是爬虫的工作。应该属于ETL的工作。
Global site tag (gtag.js) - Google Analytics