heritrix,爬虫,绕过登录验证
whoshaofeng
2013-05-22
heritrix爬虫的时候,比如公司的项目都是带用户登陆的,heritrix怎么实现绕过去登录那?
目前的想法是: 1.模拟登录,传递cookie的方式。 2.开个后门,在爬的时候不进行验证。 另外,heritrix1.14版本中的order.xml可以配置登录的信息,貌似不太好使。 |
|
wxwall
2013-05-22
你们难道是把这个爬虫单独做一个工程,让它跑?你可以集成到你的项目里面啊,具体的方法,你可以参照这个http://guoyunsky.iteye.com/category/82971,具体的你说的模拟登录,我个人做过这个,不觉得这个方式可行,因为用户不会操作这个东西,你还得是那个非常了解这个程序的人才能操作这个heritrix的界面
|