nutch有些链接爬行不下来,不知何故?
commanderhyk
2010-08-07
配置文件如下:
urls.txt http://xxx.xxx.xxx.xx/app1/list?page=1 crawl-urlfilter.txt +^http://xxx.xxx.xxx.xx/app1/list\?page= +^http://xxx.xxx.xxx.xx/app1/detail/ReadNews.asp\?NewsID= 入口url http://xxx.xxx.xxx.xx/app1/list?page=1 的源码中的新闻列表 <a class="middle" href="http://xxx.xxx.xxx.xx/app1/detail/ReadNews.asp?NewsID=7506" title="xxx" target="_blank"> <l><font color=""> xxx</font></l> </a> 怀疑是<l><font color=""> xxx</font></l> 导致的.大家看看如何解决,谢谢 |
|
commanderhyk
2012-07-03
我也曾经也遇到这样的问题.当时是修改了他的源码,使用正则表达式提取链接.不知道其他蜘蛛引擎是否原生的解决了这个问题.
|