如何用爬虫爬取自己在哔哩哔哩的所有评论？

点击联系发帖人 时间：2022-09-19 06:12

java爬虫

使用jieba分词，生成词云

# 设置图片默认的大小,但是如果使用背景图片的话, # 那么保存的图片大小将会按照其大小保存,margin为词语边缘距离 # 从背景图片生成颜色值

pip的换源，原来的太慢，然后将你自己没有库装上

}

能不能用python爬虫爬取实时更新的列表？

当然可以啦，python的强大这时候就体现出来了。

Chrome 浏览器 (能使用开发者模式的浏览器都行)

我们可以看到Request URL这个属性值，我们向下滑动加载视频的过程中，发现只有这段url是不变的。

next_offset 会一直变化，我们可以猜测，这个可能就是获取下一个视频序号，我们只需要把这部分参数取出来，把 next_offset 写成变量值，用 JSON 的格式返回到目标网页即可。

我们通过上面的尝试写了段代码，发现 B 站在一定程度上做了反爬虫操作，所以我们需要先获取 headers 信息，否则下载下来的视频是空的，然后定义 params 参数存储 JSON 数据，然后通过 /board/v1/ranking/top?' # 为了防止有些视频没有提供下载链接的情况

}

今天就来一个简单一点的，爬取哔哩哔哩视频。视频呢，一般后缀是M4s，MP3。所以找到这个的后缀就差不多找到了那个视频。我们要爬视频第一步就是要知道他的url(也就是连接)，一般情况下，我们找到我们想要的数据对应的连接就能爬取下来。（作品有点长，坚持努力看完你就是大能，源码在后面。加油）

第一步：打开我们的哔哩哔哩，>打开我们要爬取的视频>右键选择检查>选择Nework>All

我们看到有两个m4s，我们点击右边的那3个点，点击Search,进入搜索模式，输入30066，点击确定。

我们看到有一个文件，双击点进去。（看你选择的视频，一般都是两个30280，300XX，的这样子，我们一般双击300XX，这样数据好找），双击进去之后再次搜索，点击键盘ctrl+F,进入搜索模式，一般情况下ctrl+F都是搜索，pycharm也是。再次搜索300XX（我这里是30066）

# 发送请求,获取响应 # 发送请求,获取响应 # 提取数据,字节类型 # 工具名参数文件名字参数文件名字参数合成文件名

用os模块打开ffmpeg,运行我们的文件，ffmpeg有调试信息对程序不影响我们可以屏蔽掉，自己在牛掰.mp4 后面加入 -loglevel quiet就行，这样的话报错就不知道什么原因，使用建议不用。点击运行就可以了，下个文章就是批量下载哔哩哔哩视频了，请到的支持。多多点赞。

}

叫阿莫西中心