linux中网页未python爬js加载的网页js脚本

叫阿莫西中心

你的位置：网站首页 >> 频道首页 >>Linux >>linux中网页未python爬js加载的网页js脚本

linux中网页未python爬js加载的网页js脚本

点击联系发帖人 时间：2018-07-08 18:39

python爬js加载的网页

思路：查看网页源码可以看出，289个页面按钮的的URL的规律很明显

可以将这些URL写入一个" # 网站资源URL嘚共同前缀 try: # 设置异常处理可以在爬取异常时，将已经爬取的内容写入文件 # 关闭浏览器浏览器每爬取一个页面上的所有机场后重启一次 # 这昰因为如果不关闭浏览器，连续访问页面会导致内存占用增加（虽然只是在一个标签页里请求资源） # 我尝试过打开新的标签页，删除旧嘚标签在新的标签页里请求资源，但内存还是会增加只是增加的速度慢了 # 把浏览器关了重启是最稳妥的方法了 # 总共有8662个页面，如果连續爬取会把内存撑爆的 time.sleep(3) # 间隔3秒访问一次，访问服务器速度太快会被禁的设置为1秒或2秒会在访问100多个页面后被禁 page = 1 # 打印爬取进度用，爬取程序很漫长的没有提示信息很恐怖的

}

了解添加断点观察js的执行过程的方法

对于前面人人网的案例我们知道了url地址中有部分参数，但是参数是如何生成的呢

毫无疑问，参数肯定是js生成的那么如何获取这些参数的规律呢？通过下面的学习来了解

我们要登录需要对密码进行加密和获取rkey字段的值
rkey字段的值我们直接发送请求rkey请求就可以获得
密码昰先反转然后使用RSA进行加密, js代码很复杂, 我们希望能通过在python中执行js来实现

使用session发送rKey获取登录需要信息

通过在chrome中观察元素的绑定事件可以确定js
觀察js的数据生成过程可以使用添加断点的方式观察

在执行环境中执行js的字符串传入数据，获取结果

}

我要回帖

更多关于 python爬js加载的网页的文章

·linux中网页未python爬js加载的网页js脚本

更多推荐

版权声明：文章内容来源于网络，版权归原作者所有，如有侵权请点击这里与我们联系，我们将及时删除。

点击添加站长微信