关于抓取iTunes11的问题.

SE_XiaoFeng 2013-07-25

       各位好,今天第一次在这里发帖,特来请教. 还望不吝赐教.

情况介绍: 

        抓取iTunes SppStore里的应用信息入库.

我的做法是:

         1.使用Fiddler软件抓取iTunes的分类列表URL,

         2.根据模拟itunes访问列表URL得到单个应用的URL,

         3.根据单个URL的得到HTML源码使用XPath,HtmlParse等抽取应用信息,入库.

 

之前抓的是iTunes10的版本,没有问题,也正常的跑了几个月,现在itunes的版本更新到11了,

列表的URL地址发生了变化,用浏览器模拟itunes11访问列表页面的URL,在页面上看到任何内容,可以看到HTML源码,但是源码杂乱无章,没有规律可循.

用浏览器模拟iTunes10访问iTunes11的列表URL却可以看到内容.

附上使用Fiddler抓取到的itunes11的列表URL

URL示例:
category_id为6002, category_name:Tool

 

各位看看,问题可能出在哪里?

或者我没有描述清楚的地方,或者没有注意到的地方的,请多多指教.

 

Global site tag (gtag.js) - Google Analytics