网页结构化信息提取讨论第2页: - 网络爬虫

群组首页 → 互联网 → 网络爬虫 → 论坛

发表回复

网页结构化信息提取

lidaobing 2009-08-19

感觉 xpath 表达式比正则表达式好使

Snow_Young 2009-08-25

解析网页肯定还是XPath更方便且容易定位。不同网页还是得做不同模板的，没办法，做通用的不太现实。

lzj0470 2010-02-08

用XPATH，工作量太多，不适合做网络爬虫，假如一千个网站，那么是不是需要配置一千个规则，还有，现在国内网站的网页不规则太多了，一个网站，存在N个模板都是很正常的。XPATH是适合做数目不大的搜索引擎当中。可以说是站内搜索。而真正的网络爬虫，是需要比较智能识别到各种网页当中最重要部分，那就是网页正文，识别时间也是不可少一部分。目前，我是TABLE标签或者DIV标签去识别各个网页当中最重要部分。如果是采集新闻信息，那就更好办了。一般情况下，逗号加句号等于或大于10，那么就是你想要得新闻信息。如果不是新闻类型，就是当要网页当中最重要得部分，还需要加一点工作量。就是怎么去掉噪音的问题。噪音一般是table或div内容长度/a标签所包含内容长度>3。经验来的。获取网页时间的话，这个没什么好说，就是用正则咯。国内网站，时间一般是X年X月X日或xxxx:xx:xx 00:00:00或xxxx:xx:xx。

walksing 2010-04-23

本人先前曾做过一个项目在测试中想到了一个算法。非常适应。准备申请专利呢。呵呵呵。

给大家点提示：密度原理。
需要的话拿钱来购买。

发表回复

>>返回群组首页

网页结构化信息提取

相关讨论

相关资源推荐