怎么用Python抓js生成的内容,还要绕过验证码
rudy_yuan
2017-04-21
各位前辈,大家好。
我是一个大三的学生,最近在学python爬虫,写了一个爬取微博、秒拍视频的爬虫站点:http://v.atob.site 但是我在爬取有些站点,比如9gag这种,他们的内容是用js动态生成的好像,而且还总是要输验证码? 请问各位前辈有什么好的方法爬取js动态内容并且绕过验证码检查的吗?谢谢大家 |
|
蔷薇下的风雨花
2017-05-05
训练ocr 让它识别验证码,不过太复杂的验证码识别不了。有个能模拟js点击滚动操作的框架然后得到响应头的数据忘了叫什么名字。
|