heritrix,爬虫,绕过登录验证

whoshaofeng 2013-05-22
heritrix爬虫的时候,比如公司的项目都是带用户登陆的,heritrix怎么实现绕过去登录那?
目前的想法是:
1.模拟登录,传递cookie的方式。
2.开个后门,在爬的时候不进行验证。
另外,heritrix1.14版本中的order.xml可以配置登录的信息,貌似不太好使。
wxwall 2013-05-22
你们难道是把这个爬虫单独做一个工程,让它跑?你可以集成到你的项目里面啊,具体的方法,你可以参照这个http://guoyunsky.iteye.com/category/82971,具体的你说的模拟登录,我个人做过这个,不觉得这个方式可行,因为用户不会操作这个东西,你还得是那个非常了解这个程序的人才能操作这个heritrix的界面
Global site tag (gtag.js) - Google Analytics