本圈子主要讨论网络爬虫技术。讨论爬虫的一些具体技术问题,如爬Ajax网站,爬需要验证的网站,分布式爬虫,网页信息抽取算法等等网页采集难题。主要是Java开源组件Heritrix,nutch爬虫的源码剖析,功能扩展,当然还可以其他的爬虫。
公告
刚刚成立,欢迎大家加入。
群组知识库

Heritrix2出现NullPointerException的原因和解决方式

Heritrix2在Settings Sheets时出现java.lang.NullPointerException错的原因和解决方式 如果使用IE或者IE内核的浏览器,在进行Settings Sheets操作时,会出现上述错误。这是因为Heritrix2在相关页面使用<button> 控件替换了原来的<input type="button">。&l ...
approximation 评论 (0) 有 1925 人浏览 2011-05-26

在eclipse中设置heritrix2的运行环境

在eclipse中设置heritrix2的运行环境 基本上根据heritrix的文档就可以设置好,不过中间会很有些坎坷。把坎坷记录下来备忘。希望对遇见同样问题的人有所帮助。heritrix的文档参见:http://webteam.archive.org/confluence/display/Heritrix/Setting+up+the+new+Heritrix+in+Eclipse1、从h ...
approximation 评论 (1) 有 2950 人浏览 2011-05-26

深入学习Heritrix---解析Frontier(链接工厂)

Frontier是Heritrix最核心的组成部分之一,也是最复杂的组成部分.它主要功能是为处理链接的线程提供URL,并负责链接处理完成后的一些后续调度操作.并且为了提高效率,它在内部使用了Berkeley DB.本节将对它的内部机理进行详细解剖.在Heritrix的官方文档上有一个Frontier的例子,虽然很简单,但是它却解释Frontier实现的基本原理.在这里就不讨论,有兴趣的读者可以参考相 ...
pengranxiang 评论 (0) 有 4018 人浏览 2011-05-26

深入学习Heritrix---解析处理器(Processor)

本节解析与处理器有关的内容. 与处理器有关的主要在以下几个类:Processor(处理器类),ProcessorChain(处理器类),ProcessorChainList(处理器链列表).它们之间的关系如下: 下面将解析该图. (1)Processor 代表一个处理器. Codepackage org.archive.crawler.framework;public class Proce ...
pengranxiang 评论 (0) 有 3075 人浏览 2011-05-26

深入学习Heritrix---解析CrawlController

当我们以Web UI方式使用Heritrix时,点击任务开始(start)按钮时,Heritrix就开始了它的爬取工作.但它的内部 执行流程是怎样的呢?别急,下面将慢慢道来. (一)CrawlJobHandler 当点击任务开始(start)按钮时,将执行它的startCrawler()方法: if(sAction.equalsIgnoreCase("start")){ // ...
pengranxiang 评论 (0) 有 6178 人浏览 2011-05-26

小组成员733人 浏览523033次 成员列表

发起人: sole
管理员: sole approximation
群组活动表
2024-11
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30  

群组信息

Global site tag (gtag.js) - Google Analytics