网页结构化信息提取

kqy929 2009-02-13

前段时间自己写了简易的爬虫，主要用于抓取餐饮类数据。
但是现难点是没有一个好方法可以提取网页中的内容。我现方案是封装了一个通用的模块，然后通过配置文件配置抓取各字段的正规表达式，解析完成后入库。这样非常麻烦，并且不同的网站要给个不同的模块，需要很大的工作量。
大家讨论下有什么好的方法，可以“轻松”的提取网页中需要的信息。也许这个话题会比较深。大家一起交流下...

fuliang 2009-03-03

以前做过demo driven的一个结构化信息提取的东东，写firefox插件，hook住用户的动作，用户演示第一个数据是怎么得到的，把步骤记录到xml中，然后直接根据这个xml就可以抓这个网站的其他的记录了。

tuoxie007 2009-04-30

我做过一个爬图片的爬虫貌似跟楼主的原理类似，但好一点的是我的正则是在配置文件中指定的，理论上指做配置不修改程序就可以抓下任何网站的任何想要的图片，
但还是很麻烦，要想正确命中想要的网页及网页中想要的图片要仔细写好每一个正则
我现在考虑可以做一个辅助配置的GUI，或许可以减少这部分工作量。
楼主是否可以考虑把你的通用模块改成配置式的，给每个网站开发一个不同的模块实在。。。