请问怎么用爬虫对抓取网页上有pdf下载的页面,然后把网址和pdf都提取出来?
liuli3163
2011-02-27
大家好,我还是新手。现在在做一个搜索引擎,就是能搜索出网站上pdf,word的内容。。。
例如:www.xxx.com/xxx.html页面含有一个可供下载的test.pdf的链接。。现在我就想问能不能用爬虫把www.xxx.com/xxx.html这个链接和下载test.pdf下来。然后我在对test.pdf进行解析,在建索引。。。请问这样对吗? 或请大家给点意见吧,谢了! |
|
nniu520
2011-03-01
怎么没人回答和讨论这个问题,太菜的问题么?
|
|
blessed24
2011-03-22
不懂菜不菜,但是我不懂
|
|
liuli3163
2011-03-22
哎,其实问题真的蛮菜的。我已经解决了,先用heritrix把网页和PDF都爬下来然后用htmlparser解析提取。谢谢两位支持。。。
|
相关讨论
相关资源推荐
- MySQL 企业监控器 2.3.10 正式版发布
- MySQL学习笔记
- 《BPF( 伯克利数据包过滤器 ) Performance Tools》 第二章 技术背景
- 大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例
- 2021-05-17
- Kubernetes权威指南
- 【跟我一起学Linux之Ubuntu】-概述与安装配置笔记
- 关于SpringCloud的所有笔记
- 2019年全国职业院校技能大赛——移动互联软件赛项规程
- 基于springboot教育资源共享平台源码数据库文档.zip