爬虫框架选择

danhongbin 2014-09-12
   最近有一个需求,对10万个网源进行某个主题的垂直抓取,不用考虑ajax等一些请求,也不用考虑“下一页”等链接,只需要抓取网页当前显示的内容。各位有什么好的建议,思路,欢迎讨论。
jiangshu 2014-09-12
直接线程抓取就好,不考虑深度,只是首页的话,是非常easy的

而且10W的量,也会很快,爬虫进行网页抓取,抓取下来后进行主题分析即可
danhongbin 2014-09-12
jiangshu 写道
直接线程抓取就好,不考虑深度,只是首页的话,是非常easy的

而且10W的量,也会很快,爬虫进行网页抓取,抓取下来后进行主题分析即可

你意思是把首页所有的链接全抓下来?主题分析具体怎么做?现在的需求是抓取新闻。然后要知道新闻的标题,时间,正文内容。
yangzhanchun 2014-09-12
10w个网页的url从哪来?
10w这个量是比较小的,挺快
yq5858588 2014-09-13
我最近也在做一个这样的程序,和你的功能差不多吧,不过我主要是抓取百度搜索结果页面,然后进行关键词的分析,这是我最近一直在做的那个http://yq5858588.iteye.com/blog/2098578
danhongbin 2014-09-15
yangzhanchun 写道
10w个网页的url从哪来?
10w这个量是比较小的,挺快

是需求搞的,现在都在数据库里。比较小,那具体怎么做呢?我只需要知道网页中的新闻。这个规律怎么找?
danhongbin 2014-09-15
yq5858588 写道
我最近也在做一个这样的程序,和你的功能差不多吧,不过我主要是抓取百度搜索结果页面,然后进行关键词的分析,这是我最近一直在做的那个http://yq5858588.iteye.com/blog/2098578

你这篇文章没有写具体的思路呀。其实我这个项目主要的问题是,10W个网站怎么找到我需要的信息,主要问题是查找规律的问题。
yangzhanchun 2014-09-15
danhongbin 写道
yangzhanchun 写道
10w个网页的url从哪来?
10w这个量是比较小的,挺快

是需求搞的,现在都在数据库里。比较小,那具体怎么做呢?我只需要知道网页中的新闻。这个规律怎么找?


可以用Jsoup试试,根据网址获取到内容,在用css选择器获取到标题啊 正文之类的
保存到数据库,你就可以接下来的分析什么的嘞
jiangshu 2014-09-15
首先,你的10W是什么,URL还是域名?
然后我做爬虫的经验就是,先下载这10w的网站首页(你的需求,我的需求是深度为3,超链接3层,工信部也是这么规定的)下载html存在一个文件夹中,下载完成后,通过主题分析程序,当然这个程序的话是根据权重分析法来写的,对每个页面进行文字权重划分,达到你的效果
小网客 2014-09-24
找我吧 
Global site tag (gtag.js) - Google Analytics