请问怎么用爬虫对抓取网页上有pdf下载的页面,然后把网址和pdf都提取出来?

liuli3163 2011-02-27
大家好,我还是新手。现在在做一个搜索引擎,就是能搜索出网站上pdf,word的内容。。。
       例如:www.xxx.com/xxx.html页面含有一个可供下载的test.pdf的链接。。现在我就想问能不能用爬虫把www.xxx.com/xxx.html这个链接和下载test.pdf下来。然后我在对test.pdf进行解析,在建索引。。。请问这样对吗?
或请大家给点意见吧,谢了!
nniu520 2011-03-01
怎么没人回答和讨论这个问题,太菜的问题么?
blessed24 2011-03-22
不懂菜不菜,但是我不懂
liuli3163 2011-03-22
哎,其实问题真的蛮菜的。我已经解决了,先用heritrix把网页和PDF都爬下来然后用htmlparser解析提取。谢谢两位支持。。。
Global site tag (gtag.js) - Google Analytics