Heritrix如果用编程启动呢?
biaoming
2008-06-17
现在要把Heritrix整合到我们项目,怎么用代码来启动Heritrix并执行一个job呢?
|
|
sole
2008-06-18
可以参加Heritrix这个类的源码。
可以手动生成一个order.xml文件,然后直接用这个配置文件启动heritrix。 |
|
biaoming
2008-06-19
Heritrix这个类用个main,启动这个就有个webui,但我们不需要这个,想用代码生成order.xml,然后启动Heritrix,不知道有没有这方面的例子?
|
|
sole
2008-06-21
可以不开启webui的,看看main的启动参数。然后可以用jmx客户端监控
要用代码生成orderx.xml,要自己写代码 |
|
biaoming
2008-06-30
得好好研究一下,你那有没有例子,想参考一下。
|
|
flykete
2008-08-20
biaoming :
我现在也碰到和你一样的问题,就是需要把Heritrix改写,使得在使用heritrix时可以脱离其自带的web容器,不知你是否已解决,能共享下你的经验么?? 我邮箱liangkete@126.com,先谢谢了! |
|
fring
2008-10-27
我也遇到了这样的问题,你解决了吗?
希望能够帮忙,弄了几天也没有解决。 能不能分享下你的经验? 希望能发到我的邮箱里,谢谢,cl_bestlove@163.com |
|
sole
2008-10-28
fring 写道 我也遇到了这样的问题,你解决了吗?
希望能够帮忙,弄了几天也没有解决。 能不能分享下你的经验? 希望能发到我的邮箱里,谢谢,cl_bestlove@163.com 只需要启动heritrix的时候添加一个heritrix的启动参数即可,--nowui,简写是-n 好像是。具体参见Hertrix用户文档或开发文档。 |
|
lionsadness
2008-11-30
不知楼上的诸位问题可否解决了,我现在要弄一个用heritrix做网络爬虫的项目。但是我又不希望让heritrix的那个main函数启动(它内嵌了jetty)。我希望用自己的tomcat启动,能实现吗?
|
|
toppi
2010-08-03
直接new一个JobConfig
|
相关讨论
相关资源推荐
- 关于 编程启动 Heritrix
- Heritrix源码分析(五) 如何让Heritrix在Ecplise等IDE下编程启动
- Heritrix1.14源码分析(5) 如何让Heritrix在Ecplise等IDE下编程启动
- Heritrix源码分析(五) 如何让Heritrix在Ecplise等IDE下编程启动(转)
- Heritrix简介
- 驯服爬虫 Heritrix
- Heritrix增量抓取的三种方式
- Heritrix1.14源码分析(9) Heritrix的二次抓取以及如何让Heritrix抓取你不想抓取的URL
- 配置heritrix,使用网络爬虫
- Heritrix源码分析(九) Heritrix的二次抓取以及如何让Heritrix抓取你不想抓取的URL