网页结构化信息提取

kqy929 2009-02-13
  前段时间自己写了简易的爬虫,主要用于抓取餐饮类数据。
  但是现难点是没有一个好方法可以提取网页中的内容。我现方案是封装了一个通用的模块,然后通过配置文件配置抓取各字段的正规表达式,解析完成后入库。这样非常麻烦,并且不同的网站要给个不同的模块,需要很大的工作量。
  大家讨论下有什么好的方法,可以“轻松”的提取网页中需要的信息。也许这个话题会比较深。大家一起交流下...
fuliang 2009-03-03
以前做过demo driven的一个结构化信息提取的东东,写firefox插件,hook住用户的动作,用户演示第一个数据是怎么得到的,把步骤记录到xml中,然后直接根据这个xml就可以抓这个网站的其他的记录了。
tuoxie007 2009-04-30
我做过一个爬图片的爬虫貌似跟楼主的原理类似,但好一点的是我的正则是在配置文件中指定的,理论上指做配置不修改程序就可以抓下任何网站的任何想要的图片,
但还是很麻烦,要想正确命中想要的网页及网页中想要的图片要仔细写好每一个正则
我现在考虑可以做一个辅助配置的GUI,或许可以减少这部分工作量。
楼主是否可以考虑把你的通用模块改成配置式的,给每个网站开发一个不同的模块实在。。。
dd2086 2009-05-24
引用
可以“轻松”的提取网页中需要的信息


这个我也很想知道,可惜真没一个好的解决方案:
1、网页中的内容根本就不是结构化的
2、你所需要的内容会根据网页的不同而不同
3、所需内容所处的位置也会变化

也不可以太具化了,否则就变成拷贝粘贴了,没有意义
onebody 2009-05-28
我现在用JAVA写了一个网页数据采集程序,实现方法跟各位基本相同.
我也是采用XML和数据库将采集的规则保存起来,针对不同网站配置对应的规则和采集策略;然后根据采集策略进行多线程调度, 内容提取主要是采用正则, 规则配置全部采用GUI,感觉还好,还是比较方便.
imjl 2009-05-31
做通用爬虫

寻找共性,然后设计算法,测试,修改。。。差不多了,写正式程序


Programmer2.x 2009-06-05
大家说的就是网页正文提取了,有个基于视觉的,大家可以看看。
kqy929 2009-06-15
基于视觉的,这个难度好高啊。
但基于正则这太局限了,如果碰到规则的网页那就辛苦点就完事了(就上面讨论的一样,如设计得好,也挺方便的)。
但如果一些完全不规则的,需要智能识别所需数据,简单的就比如提取blog或者新闻等等一些并不规则的网页。
这,这。。。
大家献计献策。
glamey 2009-08-11
说到底还是正则表达式。
fanzy618 2009-08-13
我写过一个基于xpath的。同一个网站的基本都能够正确提取。
不过不同的网站就必须准备不同的配置文件了。

Global site tag (gtag.js) - Google Analytics