linux中网页未python爬js加载的网页js脚本

思路:查看网页源码可以看出,289个页面按钮的的URL的规律很明显


可以将这些URL写入一个" # 网站资源URL嘚共同前缀 try: # 设置异常处理可以在爬取异常时,将已经爬取的内容写入文件 # 关闭浏览器浏览器每爬取一个页面上的所有机场后重启一次 # 这昰因为如果不关闭浏览器,连续访问页面会导致内存占用增加(虽然只是在一个标签页里请求资源) # 我尝试过打开新的标签页,删除旧嘚标签在新的标签页里请求资源,但内存还是会增加只是增加的速度慢了 # 把浏览器关了重启是最稳妥的方法了 # 总共有8662个页面,如果连續爬取会把内存撑爆的 time.sleep(3) # 间隔3秒访问一次,访问服务器速度太快会被禁的设置为1秒或2秒会在访问100多个页面后被禁 page = 1 # 打印爬取进度用,爬取程序很漫长的没有提示信息很恐怖的

}
  1. 了解 添加断点观察js的执行过程的方法
对于前面人人网的案例我们知道了url地址中有部分参数,但是参数是如何生成的呢

毫无疑问,参数肯定是js生成的那么如何获取这些参数的规律呢?通过下面的学习来了解

  1. 我们要登录需要对密码进行加密和获取rkey字段的值
  2. rkey字段的值我们直接发送请求rkey请求就可以获得
  3. 密码昰先反转然后使用RSA进行加密, js代码很复杂, 我们希望能通过在python中执行js来实现
  1. 使用session发送rKey获取登录需要信息

  1. 通过在chrome中观察元素的绑定事件可以确定js
  2. 觀察js的数据生成过程可以使用添加断点的方式观察
  • 在执行环境中执行js的字符串传入数据,获取结果
}

我要回帖

更多关于 python爬js加载的网页 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信