目前自己在研究蜘蛛

群组首页 → 互联网 → 网络爬虫 → 论坛

发表回复

biaoming 2008-07-31

用了别人的蜘蛛种觉得不好,最近开始自己研究蜘蛛,有兴趣的朋友一起研究.

sole 2008-07-31

俺也在研究，分布式 spider,crawler,or robot.

sole 2008-07-31

我再研究如何调浏览器，用个还几个java封装的组件，windows的感觉还行，linux的好多都不能用，总出错。看了好久了，Mozilla基本架构没弄明白

guooo 2008-08-01

不错啊,以前用wget去爬网页,比较简单啦.

biaoming 2008-08-01

我看过crawler的源码，先创建ToePool，这个线程池的大小在order.xml定义，ToeThread这是他的工作线程，在工作线程有个比较重要的方法processCrawlUri()，这方法会调用和协调Processor进行工作，最初的Processor是Frontier，他负责保存要处理的url，相当于生产者消费者小的缓存，消费缓存中的资源是其它Processor，处理完之后再把分析得到的url放到缓存，主要原理就这些。所以我现在用jdk自身的ExecutorService来当线程池，最初还可以只用ConcurrentMap来当缓存。其它思路也和crawler差不多。有兴趣的朋友一起加入研究。