一个网页 去掉网页底部的版权信息区域内容
dietime1943
2012-03-15
我获取了不同网页的 html源码.去掉网页底部的版权信息区域内容
比如如下图这种 最初想到的是按照底部多少行来删除 但是这些网页的底部 版权信息有多种.无法固定具体行数. 这样就不能对所有的网页按照 固定的行数进行删除了, 我一直有个疑问,搜索引擎为什么 都过滤掉了. 网页的这些版权信息都没有收录. 我想简单实现下过滤掉底部的版权信息.从多个html源码页中删除版权信息.就是这个意思 |
|
wenjinglian
2012-04-06
看下html,一般底部都是footer
<div id="footer"> </div> |