最近初学Python写爬虫上瘾。爬了豆瓣练手又爬了公司的论坛生成词云分析年度关键词。最近琢磨着2017又仅剩两月了我的年度关键词是啥?
所以自然想到爬取下自己的微信萠友圈来个词频分析,生成属于自己的年度关键词词云
朋友圈的爬取是非常有难度的,因为微信根本没有暴露API入口去爬取数据
但它屾之石,可以攻玉
通过各种搜索发现,已经有第三方工具可以做到朋友圈的导出其中微信公众号就提供了这样一种服务,支持朋友圈導出并排版生成微信书。
而对朋友圈的爬取就是基于【出书啦】爬取朋友圈后生成网页后的二次爬取
有点爬虫经验的,只要拿到导出萠友圈的URL后面的爬虫就不足为道了。但本着分享和总结的精神还是和大家娓娓道来。
=文中涉及个人隐私内容做了特殊处理=
上面已经介紹过了朋友圈的数据爬取是基于【出书啦】微信公众号生成的在线微信书数据的二次爬取
点击上图的链接,我们就可以看到按照月份重新排版的朋友圈数据如下图所示:
至此,我们拿到朋友圈的数据入口——【出书啦】排版生成的微信书链接
写过爬虫的,后面就可以直接略过了
当然,没写过爬虫也不想动手的也可以把【出书啦】生成的微信书链接留言或私信给我,我帮你获取年度关键词
至此我们完成爬虫的书写。是不是迫不及待跑一下
jieba中文分词提供了便利的接口用于分词和词頻统计。我们直接调用jieba.cut
方法即可得到分词结果在此之前我们需要加载我们爬取的朋友圈数据,即保存到moment.json文件中的数据并拼接所有朋友圈文本传参至jieba.cut
即可。
"""分析导出的朋友圈数据""" 分析抓取到的朋友圈数据使用jieba进行分词,使用wordcloud生成词云
词云需要基于上一步的分词结果生成詞云代码也很简单:
你可能嫌弃以上生成的词云比较丑,没关系你可以使用做出各种酷炫的效果。
因为【出书啦】未完善反爬机制所以爬虫写下来也没有什么难度,所以感兴趣的不妨赶紧动手试一试本文出于学习分享,无恶意窃取数据之意也请读者不要用于他途!
更多Python视频、源码、资料加群免费获取
以上所述是小编给大家介绍的基於Python实现定时自动给微信好友发送天气预报希望对大家有所帮助,如果大家有任何疑问请给我留言小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持!
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。