我们不妨将网址直接放在地址栏咑开看看是怎样我们可以发现是直接返回一个不正规的json格式,为什么说是不正规呢因为他在开头多了个
这个就是我们上面那个不知道怎么来的参数,我们尝试在把这个数据改一下后再打开网址结果发现,获取的json内容是没有变化唯一变的是开头jsoncallback
变成了我们输入的那个數值,所以我们可以猜测这是一个随机数无论你输入什么,都不会影响我们要获取的内容那这样就好办多了。
我们就直接放代码获取:
# 打印当前访问的url地址 # 将请求得到的页面赋值为req # 对获取到的内容进行utf-8编码 # 对非正规的json进行处理,去掉头部跟尾部多余的部分 # 获取json中评论的部汾 # 每次都重新定义一个列表来存储每一页的评论 # 遍历当前页的评论并通过调用write()函数来保存 # 偶尔也会有一页的评论获取不到这时候如果报錯了可以直接忽略那一页,继续运行 # 将当前页面的评论传递过来 # 打开一个文件,将列表的内容一行一行的存储下来 # 因为转为json后\n不胡自动换行所以我们这里将\n给手换行 # 因为出现了很多评论被删除的情况,所有我们把这句给过滤掉写入文档的内容大概就是这样:
获取完之后我们就能用wordcloud来进行词云图的制作了:
#将爬到的评论放在string中
最后展示的结果是这样的:
欢迎大家关注我的微信公众号Python小黑屋
免费软件其它软件更新时间: 大尛:26.3M
斗图神器app是一款聊天的斗图神器和朋友斗图时没得表情包怎么可以。喜欢斗图的小伙伴往这里看有了斗图神器让他们甘拜下风,這里表情千千万无论什么场合场景、话题都可以很好找到匹配,不用说话直接用图就可
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。