如何用python爬取弹幕写斗鱼弹幕

首先我准备利用mysql来存储我爬取的信息,建一个host表如下:

然后下载pymysql ,利用它与数据库链接,因为在这里我只涉及到写入的操作:

然后就是使用Beautifulsoup框架对斗鱼的链接进行解析,为了使用的方便,自己写了一个host类,主要用于存储直播间的相关信息。基本思路是:1.获取斗鱼的几大模块,斗鱼一共有7个模块:网游晋级,单机热,手游休闲等  。2.获取每个模块的子模块 3.从每个子模块中找到旗下的直播间信息。

最后直接运行get_info()就行

但是程序到这似乎还有两点没有解决:

1.斗鱼的关注数是使用gif图片加载。暂时还没有发现获取每个直播间关注数的方法。

这两个问题后面再解决。

通过对斗鱼api数据接口的分析,我找到了斗鱼后台的online实际人数。因此我通过了爬虫爬取了在线的人数。

在斗鱼直播的后台数据解析的过程我发现了一个数据接口,这个数据接口包含有:online关键关键数据。个人估计是斗鱼直播间的实际人数。

通过对数据的分析,这个字和热度呈真相关。真实性比较高。

我利用斗鱼的热度和实际人数的比值 coefficient(这个系数)表示斗鱼对改主播的支持情况。

再来更新一波:通过对斗鱼的后台数据的分析找到了斗鱼的分页数据,也就是可以爬取斗鱼的所有直播间的信息。

}

在某群中看到关于弹幕爬取的需求,又因为斗鱼比较OP,就以这个作为切入点。

如果你想了解如何获取弹幕,我的这个例子就可以让你豁然开朗,对于哪些没有开发弹幕的直播或视频平台,就需要用抓包工具获取请求,然后分析请求数据包内容,现在说说我的获取步骤吧。

我通过了解到斗鱼弹幕的api,根据标准协议,构建请求包,向弹幕服务器发送请求,接受请求后用正则表达式分离出现在想要的内容。

在results文件夹中打开爬取到的弹幕文件

我将代码都放到了github上,下面是地址

}

我要回帖

更多关于 python爬取弹幕 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信