目前自己在研究蜘蛛
biaoming
2008-07-31
用了别人的蜘蛛种觉得不好,最近开始自己研究蜘蛛,有兴趣的朋友一起研究.
|
|
sole
2008-07-31
俺也在研究,分布式 spider,crawler,or robot.
|
|
sole
2008-07-31
我再研究如何调浏览器,用个还几个java封装的组件,windows的感觉还行,linux的好多都不能用,总出错。看了好久了,Mozilla基本架构没弄明白
|
|
guooo
2008-08-01
不错啊,以前用wget去爬网页,比较简单啦.
|
|
biaoming
2008-08-01
我看过crawler的源码,先创建ToePool,这个线程池的大小在order.xml定义,ToeThread这是他的工作线程,在工作线程有个比较重要的方法processCrawlUri(),这方法会调用和协调Processor进行工作,最初的Processor是Frontier,他负责保存要处理的url,相当于生产者消费者小的缓存,消费缓存中的资源是其它Processor,处理完之后再把分析得到的url放到缓存,主要原理就这些。所以我现在用jdk自身的ExecutorService来当线程池,最初还可以只用ConcurrentMap来当缓存。其它思路也和crawler差不多。有兴趣的朋友一起加入研究。
|
|
rain999
2008-08-02
我目前用HttpClient 做类似的东西,有兴趣,怎么加入呢?
|
|
imjl
2008-08-04
恩,,说具体点啊,,
|
|
biaoming
2008-08-06
目前正在进行中。我的邮箱biaoming@126.com
|
|
yxbbing
2008-09-11
最近接到上级一个任务,研究HttpClient 性能测试及分析,寻找使用HTTPClient消耗性能少或者替换的方式 , 大家有好的建意吗?给点吧...
|
|
chencang
2008-09-12
我目前看的是larbin啊,自己写的总是觉得不好,不规范
|