网页结构化信息提取
lidaobing
2009-08-19
感觉 xpath 表达式比正则表达式好使
|
|
Snow_Young
2009-08-25
解析网页肯定还是XPath更方便且容易定位。不同网页还是得做不同模板的,没办法,做通用的不太现实。
|
|
lzj0470
2010-02-08
用XPATH,工作量太多,不适合做网络爬虫,假如一千个网站,那么是不是需要配置一千个规则,还有,现在国内网站的网页不规则太多了,一个网站,存在N个模板都是很正常的。XPATH是适合做数目不大的搜索引擎当中。可以说是站内搜索。而真正的网络爬虫,是需要比较智能识别到各种网页当中最重要部分,那就是网页正文,识别时间也是不可少一部分。目前,我是TABLE标签或者DIV标签去识别各个网页当中最重要部分。如果是采集新闻信息,那就更好办了。一般情况下,逗号加句号等于或大于10,那么就是你想要得新闻信息。如果不是新闻类型,就是当要网页当中最重要得部分,还需要加一点工作量。就是怎么去掉噪音的问题。噪音一般是table或div内容长度/a标签所包含内容长度>3。经验来的。获取网页时间的话,这个没什么好说,就是用正则咯。国内网站,时间一般是X年X月X日或xxxx:xx:xx 00:00:00或xxxx:xx:xx。
|
|
walksing
2010-04-23
本人先前曾做过一个项目 在测试中想到了一个算法。非常适应。准备申请专利呢。呵呵呵。
给大家点提示:密度原理。 需要的话拿钱来购买。 |