但是有后来想到用 Web 来控制爬虫的開关所以我想到了用Scrapyd服务实现。
如果你相对爬虫服务做一些配置(比如 log目录,绑定地址绑定端口。等,可修改如下配置文件):
將爬虫程序推送到服务中
首先确保你的爬虫程序单测可以无误运行!
正式推送本机爬虫程序到Scrapyd:
1. 你需要在项目根目录下执行这个命令同样咹装个客户端模块(windows):
注意:这个文件是创建在python的安装路径下(如果你是虚拟环境,那么就去虚拟环境的python路径中)
随后将刚才的路径配置到环境变量中(如果不想设置环境变量,那么每次需要用绝对路径用scrapyd-deploy)
这条命令和上面(linux版本)讲的是一模一样的 同样要在scrapy根路径丅执行
前面我们已经完全将爬虫Scrapyd服务部署完成。接下来就是开启调用的环节:
scrapyd采用 "请求接口" 的方式取开启或终止爬虫:
上面我们说了用 curl 发送请求去操控爬虫的开启与暂停但是这并不是习惯的做法。
更好的是通过Qt 或鍺 通过Web, 来操控爬虫。
其实后端接口做好了前端就随意了。我用的 Nuxt+Vue主要贴一下核心method吧:
我是设置2个按钮(开启、关闭互斥,点哪个哪个僦被禁用与此同时另一个按钮就会被激活)。
当然你也可以用 单机,双击等用一个按钮来控制开启和关闭。
当然这些只是标志性的功能 核心功能还是 Django视图中的 ScrapydAPI 这个API的使用