目前自己在研究蜘蛛

biaoming 2008-07-31
用了别人的蜘蛛种觉得不好,最近开始自己研究蜘蛛,有兴趣的朋友一起研究.
sole 2008-07-31
俺也在研究,分布式 spider,crawler,or robot.
sole 2008-07-31
我再研究如何调浏览器,用个还几个java封装的组件,windows的感觉还行,linux的好多都不能用,总出错。看了好久了,Mozilla基本架构没弄明白
guooo 2008-08-01
不错啊,以前用wget去爬网页,比较简单啦.
biaoming 2008-08-01
我看过crawler的源码,先创建ToePool,这个线程池的大小在order.xml定义,ToeThread这是他的工作线程,在工作线程有个比较重要的方法processCrawlUri(),这方法会调用和协调Processor进行工作,最初的Processor是Frontier,他负责保存要处理的url,相当于生产者消费者小的缓存,消费缓存中的资源是其它Processor,处理完之后再把分析得到的url放到缓存,主要原理就这些。所以我现在用jdk自身的ExecutorService来当线程池,最初还可以只用ConcurrentMap来当缓存。其它思路也和crawler差不多。有兴趣的朋友一起加入研究。
rain999 2008-08-02
我目前用HttpClient 做类似的东西,有兴趣,怎么加入呢?
imjl 2008-08-04
恩,,说具体点啊,,
biaoming 2008-08-06
目前正在进行中。我的邮箱biaoming@126.com
yxbbing 2008-09-11
最近接到上级一个任务,研究HttpClient 性能测试及分析,寻找使用HTTPClient消耗性能少或者替换的方式 , 大家有好的建意吗?给点吧...
chencang 2008-09-12
我目前看的是larbin啊,自己写的总是觉得不好,不规范
Global site tag (gtag.js) - Google Analytics