请问怎么用爬虫对抓取网页上有pdf下载的页面，然后把网址和pdf都提取出来？ - 网络爬虫 - ITeye群组

群组首页 → 互联网 → 网络爬虫 → 论坛

请问怎么用爬虫对抓取网页上有pdf下载的页面，然后把网址和pdf都提取出来？

liuli3163 2011-02-27

大家好，我还是新手。现在在做一个搜索引擎，就是能搜索出网站上pdf，word的内容。。。
例如:www.xxx.com/xxx.html页面含有一个可供下载的test.pdf的链接。。现在我就想问能不能用爬虫把www.xxx.com/xxx.html这个链接和下载test.pdf下来。然后我在对test.pdf进行解析，在建索引。。。请问这样对吗？
或请大家给点意见吧，谢了！

nniu520 2011-03-01

怎么没人回答和讨论这个问题，太菜的问题么？

blessed24 2011-03-22

不懂菜不菜，但是我不懂

liuli3163 2011-03-22

哎，其实问题真的蛮菜的。我已经解决了，先用heritrix把网页和PDF都爬下来然后用htmlparser解析提取。谢谢两位支持。。。

>>返回群组首页

相关讨论

相关资源推荐

Global site tag (gtag.js) - Google Analytics