爬虫框架选择

danhongbin 2014-09-12

最近有一个需求，对10万个网源进行某个主题的垂直抓取，不用考虑ajax等一些请求，也不用考虑“下一页”等链接，只需要抓取网页当前显示的内容。各位有什么好的建议，思路，欢迎讨论。

jiangshu 2014-09-12

直接线程抓取就好，不考虑深度，只是首页的话，是非常easy的

而且10W的量，也会很快，爬虫进行网页抓取，抓取下来后进行主题分析即可

danhongbin 2014-09-12

jiangshu 写道

直接线程抓取就好，不考虑深度，只是首页的话，是非常easy的

而且10W的量，也会很快，爬虫进行网页抓取，抓取下来后进行主题分析即可

你意思是把首页所有的链接全抓下来？主题分析具体怎么做？现在的需求是抓取新闻。然后要知道新闻的标题，时间，正文内容。

yangzhanchun 2014-09-12

10w个网页的url从哪来?
10w这个量是比较小的,挺快

yq5858588 2014-09-13

我最近也在做一个这样的程序，和你的功能差不多吧，不过我主要是抓取百度搜索结果页面，然后进行关键词的分析，这是我最近一直在做的那个http://yq5858588.iteye.com/blog/2098578

danhongbin 2014-09-15

yangzhanchun 写道

10w个网页的url从哪来?
10w这个量是比较小的,挺快

是需求搞的，现在都在数据库里。比较小，那具体怎么做呢？我只需要知道网页中的新闻。这个规律怎么找？

danhongbin 2014-09-15

yq5858588 写道

你这篇文章没有写具体的思路呀。其实我这个项目主要的问题是，10W个网站怎么找到我需要的信息，主要问题是查找规律的问题。

yangzhanchun 2014-09-15

danhongbin 写道

yangzhanchun 写道

10w个网页的url从哪来?
10w这个量是比较小的,挺快

是需求搞的，现在都在数据库里。比较小，那具体怎么做呢？我只需要知道网页中的新闻。这个规律怎么找？

可以用Jsoup试试,根据网址获取到内容,在用css选择器获取到标题啊正文之类的
保存到数据库,你就可以接下来的分析什么的嘞

jiangshu 2014-09-15

首先，你的10W是什么，URL还是域名？
然后我做爬虫的经验就是，先下载这10w的网站首页（你的需求，我的需求是深度为3，超链接3层，工信部也是这么规定的）下载html存在一个文件夹中，下载完成后，通过主题分析程序，当然这个程序的话是根据权重分析法来写的，对每个页面进行文字权重划分，达到你的效果

小网客 2014-09-24

找我吧