浅析网络爬虫软件——集搜客与八爪鱼

494385880 2016-03-25
   最近想用爬虫软件来采集网页上的一些数据,根据百度的推荐以及相关关键词查询,找到了两款软件:“集搜客”和“八爪鱼”,两款软件都有可视化界面,对于编程思维比较薄弱的用户来说,这两款软件上手容易,操作简单易懂。今天就带大家来了解对比一下这两款通用的网络爬虫软件。
1.软件安装
   八爪鱼:八爪鱼安装跟其他软件一下,从官网下载,直接点击setup.exe安装即可。
   集搜客:集搜客网站上下载的软件也是一个自解压exe程序,双击启动安装,看到的是火 狐浏览器安装过程,原来集搜客软件是作为火狐插件发布的。

2.软件界面布局
   八爪鱼:八爪鱼的界面布局可以归为指引型界面,用户进入软件界面可以看到软件使用提示信息,如图一所示,包括向导模式与高级模式,同时列出了学习资源,采集规则,数据下载等等。对于初次使用的用户来说,起到了很好的指引作用。


    图一:八爪鱼操作界面展示

   集搜客:集搜客软件分成两个操作界面,MS谋数台(图2)和DS打数机(图3),谋数台负责制定规则(网页标注),打数机负责采集数据(网络爬虫),一个谋、一个打,听起来还是比较符合其特征。集搜客启动后的界面没有显示使用帮助资源,而是位于“帮助”菜单中。


    图2:集搜客谋数台界面


    图3:集搜客打数机界面

3.操作流程
   八爪鱼:八爪鱼的操作流程主要分为4个步骤(如图4所示),分别为:设置基本信息、设计工作流程、设置采集选项、完成。


    图4:八爪鱼操作流程
   1) 设置基本信息:建立任务名,分配任务组。其实就是给你要做的规则命名。
   2) 设计工作流程:这个步骤是八爪鱼制定规则的关键一环,包括输入网址、构建循环,所有关于翻页、循环等一些操作都在此进行。其实八爪鱼此工作流程已经为用户构建了一个既定的框架,用户只需往里面补充元素就可以了。如图4所示,构建了一个大的循环框架,用来翻页,里面又包含循环,又来做列表采集以及层级抓取


   3) 设置采集选项:这个理解起来很简单,就是选择需要采集的数据,如图4右边方框所示,一次抓取了整条数据,需要进一步确定需要哪些字段,并整理。
    4) 完成:规则制定完成,采集数据。
   集搜客:集搜客的操作没有流程的概念,似乎定义采集规则可以不遵守既定操作顺序,而是有一个要领“建立一个箱子,把你要的内容摘进去”。所以我们称之为4“块”操作(如图6所示),包括命名主题、创建整理箱、规划爬虫路线和定义连续动作。


    图6:集搜客的4块功能
   1) 命名主题:为规则起个名字。
   2) 创建整理箱:集搜客提出了“箱子”概念,即建立一个箱子,需要什么数据,就从网页中摘取对应信息丢进这个箱子,这个丢的过程,集搜客有个专用词“映射”,就是把网页上的内容指定给整理箱中的一个字段。
   3) 爬虫路线:为采集任务设置翻页和层级,通俗来说,爬虫路线就是告诉爬虫要按着哪条路线来爬数据。
   4) 连续点击:这个属于集搜客的高级功能了,通过模拟用户的点击和其他行为,来实现自动采集,主要针对那些需要不断点击但网址不发生变化的网页。
   综上所述,八爪鱼的工作流程特征十分明显,用户决定软件怎样动作,什么时候动作,动作施加给哪里,从哪里采集内容等。而集搜客想让用户专注于摘什么数据,如果用户在摘取以外还想扩展范围那就定义爬虫路线,如果还想做些动作那就定义连续动作,整个流程细节用户不用关心。
4.数据存储方式
   八爪鱼:八爪鱼分成单机运行和云采集,数据导出支持EXCEL、SQL、TXT等常用格式。
   集搜客:集搜客没有云采集,因为爬虫都在用户自己电脑上跑,用户想把爬虫放云上那是用户自己的事。跑下来的数据以XML格式存储,可见这是一种中间结果,集搜客官网提供了XML转EXCEL的工具,也在会员中心提供了基于云存储的数据导入和清洗功能,入库后可以导出成EXCEL格式。
5.收费模式
   八爪鱼:简单来说是一种软件销售模式(不排除免费版),除此之外用户下规则要积分,跑数据也要积分,而积分可以用钱购买或者参与社区活动换积分。
   集搜客:集搜客简单来说是一种服务收费模式,软件功能全部免费,如果需要一些爬虫管理和数据管理的服务,则根据服务类型、数量和时间进行收费。同样,下载规则要积分,如果使用云存储,根据存储量和存储时间收费。积分同样也可以用钱购买,或者参与社区活动赚积分。
Global site tag (gtag.js) - Google Analytics