如何用爬虫爬取自己在哔哩哔哩的所有评论?

使用jieba分词,生成词云

# 设置图片默认的大小,但是如果使用背景图片的话, # 那么保存的图片大小将会按照其大小保存,margin为词语边缘距离 # 从背景图片生成颜色值

pip的换源,原来的太慢,然后将你自己没有库装上

}

能不能用python爬虫爬取实时更新的列表?

当然可以啦,python的强大这时候就体现出来了。

  • Chrome 浏览器 (能使用开发者模式的浏览器都行)

我们可以看到Request URL这个属性值,我们向下滑动加载视频的过程中,发现只有这段url是不变的。

next_offset 会一直变化,我们可以猜测,这个可能就是获取下一个视频序号,我们只需要把这部分参数取出来,把 next_offset 写成变量值,用 JSON 的格式返回到目标网页即可。

我们通过上面的尝试写了段代码,发现 B 站在一定程度上做了反爬虫操作,所以我们需要先获取 headers 信息,否则下载下来的视频是空的,然后定义 params 参数存储 JSON 数据,然后通过 /board/v1/ranking/top?' # 为了防止有些视频没有提供下载链接的情况

}

今天就来一个简单一点的,爬取哔哩哔哩视频。视频呢,一般后缀是M4s,MP3。所以找到这个的后缀就差不多找到了那个视频。我们要爬视频第一步就是要知道他的url(也就是连接),一般情况下,我们找到我们想要的数据对应的连接就能爬取下来。(作品有点长,坚持努力看完你就是大能,源码在后面。加油)

第一步:打开我们的哔哩哔哩,>打开我们要爬取的视频>右键选择检查>选择Nework>All

 我们看到有两个m4s,我们点击右边的那3个点,点击Search,进入搜索模式,输入30066,点击确定。

 我们看到有一个文件,双击点进去。(看你选择的视频,一般都是两个30280,300XX,的这样子,我们一般双击300XX,这样数据好找),双击进去之后再次搜索,点击键盘ctrl+F,进入搜索模式,一般情况下ctrl+F都是搜索,pycharm也是。再次搜索300XX(我这里是30066)

# 发送请求,获取响应 # 发送请求,获取响应 # 提取数据,字节类型 # 工具名 参数 文件名字 参数 文件名字 参数 合成文件名

用os模块打开ffmpeg,运行我们的文件,ffmpeg有调试信息对程序不影响我们可以屏蔽掉,自己在牛掰.mp4 后面加入 -loglevel quiet就行,这样的话报错就不知道什么原因,使用建议不用。点击运行就可以了,下个文章就是批量下载哔哩哔哩视频了,请到的支持。多多点赞。

}

我要回帖

更多关于 java爬虫 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信