nutch有些链接爬行不下来,不知何故?

commanderhyk 2010-08-07
配置文件如下:
urls.txt 
     http://xxx.xxx.xxx.xx/app1/list?page=1
crawl-urlfilter.txt
     +^http://xxx.xxx.xxx.xx/app1/list\?page=
     +^http://xxx.xxx.xxx.xx/app1/detail/ReadNews.asp\?NewsID=

入口url http://xxx.xxx.xxx.xx/app1/list?page=1 的源码中的新闻列表

<a class="middle" href="http://xxx.xxx.xxx.xx/app1/detail/ReadNews.asp?NewsID=7506" title="xxx" target="_blank">
<l><font color=""> xxx</font></l>
</a>


怀疑是<l><font color=""> xxx</font></l> 导致的.大家看看如何解决,谢谢
commanderhyk 2012-07-03
我也曾经也遇到这样的问题.当时是修改了他的源码,使用正则表达式提取链接.不知道其他蜘蛛引擎是否原生的解决了这个问题.
Global site tag (gtag.js) - Google Analytics