怎么用Python抓js生成的内容,还要绕过验证码

rudy_yuan 2017-04-21
各位前辈,大家好。
我是一个大三的学生,最近在学python爬虫,写了一个爬取微博、秒拍视频的爬虫站点:http://v.atob.site

但是我在爬取有些站点,比如9gag这种,他们的内容是用js动态生成的好像,而且还总是要输验证码?

请问各位前辈有什么好的方法爬取js动态内容并且绕过验证码检查的吗?谢谢大家
训练ocr 让它识别验证码,不过太复杂的验证码识别不了。有个能模拟js点击滚动操作的框架然后得到响应头的数据忘了叫什么名字。
Global site tag (gtag.js) - Google Analytics