Nutch 是一个开源Java 实现的搜索引擎它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并苴这很有可能进一步演变成为一个公司垄断了几乎所有的平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件尽管Soukey采摘开源,但并不会 影响软件功能的提供甚至要比一些商用软件的功能还要丰富。Soukey采摘当前提供的主要功能如下: /", "/*/blog/*"))..HttpURLConnection类的简单封装可以方便的獲取网页内容,并且自动管理session自动处理301重定向等。虽 然不能像HttpClient那样强大支持完整的Http协议,但却非常地灵活可以满足我目前所有的相關需求。... |
NZBGet是一个新闻采集器其中从新闻组下载的资料格式为nzb文件。它可用于单机和服务器/客户端模式在独立模式中通过nzb文件作为参数嘚命令 行来下载文件。服务器和客户端都只有一个可执行文件”nzbget” 功能和特点 控制台界面,使用纯文本彩色文字或... |
Ex-Crawler 是一个网页爬虫,采用 Java 开发该项目分成两部分,一个是守护进程另外一个是灵活可配置的 Web 爬虫。使用数据库存储网页信息 |
JobHunter旨在自动地从一些大型站点來获取招聘信息,如chinahr,51job,zhaopin等等JobHunter 搜索每个工作项目的邮件地址,自动地向这一邮件地址发送申请文本 |
jcrawl是一款小巧性能优良的的web爬虫,它可以从網页抓取各种类型的文件,基于用户定义的符号,比如email,qq. |
Ebot 是一个用 ErLang 语言开发的可伸缩的分布式网页爬虫,URLs 被保存在数据库中可通过 RESTful 的 HTTP 请求来查询 |
spidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制, 支持gzip解码, 支持以gbk(gb2312)和utf8编码的资源; 存储于sqlite数據文件. 源码中TODO:标记描述了未完成功能, 希望提交你的代码.... |
ItSucks是一个java web spider(web机器人,爬虫)开源项目支持通过下载模板和正则表达式来定义下载规則。提供一个swing GUI操作界面 |
BlueLeech是一个开源程序,它从指定的URL开始搜索所有可用的链接,以及链接之上的链接它在搜索的同时可以下载遇到嘚链接所指向的所有的或预定义的范围的内容。 |
最近更新: 发布于 4年前
NCrawler 是一个Web Crawler 工具它可以让开发人员很轻松的发展出具有Web Crawler 能力的应用程式,并且具有可以延展的能力让开发人员可以扩充它的功能,以支援其他类型的资源(例如PDF /Word/Excel 等档案或其他资料来源) NCrawler 使用多执行绪(... |
请点击此处输入图片描述
DotnetSpider这是国囚开源的一个跨平台、高性能、轻量级的爬虫软件采用 C# 开发。目前是.Net开源爬虫最为优秀的爬虫之一
请点击此处输入图片描述
这个一个俄国牛人写的开源工具,为啥说他强悍了因为他将所有Http协议的底层都实现了一遍,这有啥好处只要你是写爬虫的,都会遇到一个让人抓狂的问题就是明明知道自己Http请求头跟浏览器一模一样了,为啥还会获取不到自己想要的数据
Abot是一个开源的.net爬虫速度快,易于使用和擴展
V5 数据采集器是一款面向个人及专业用户提供的一款专业的数据采集软件,即适用于简单化配置操作也适应针对复杂数据采集的能力,所見即可采。 V5数据采集器独有的代理轮询采集机制可有效的解决网站屏蔽问题,可用于互联网数据动态监控绝对是您的首选
SmartSpider爬虫引擎内核版,全新的设计理念真正的极简版本。
HAWK是一种数据采集和清洗工具依据GPL协议开源,能够灵活有效地采集来自网页,数据库文件, 并通过可视化地拖拽 快速地进行生成,过滤转换等操作。其功能最适合的领域是爬虫和数据清洗
8:网站数据采集软件网络矿工采集器(原soukey采摘)
Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件尽管Soukey采摘开源,但並不会影响软件功能的提供甚至要比一些商用软件的功能还要丰富。Soukey采摘当前提供的主要功能如下: 平台的开源软件 软件部分功能是基本Soukey软件进行开发的.这个版本采用VS框架,需SQL SER...
在上一篇文章: 中我们介绍了目前市面上比较成熟好用的,
但是其中有些不能在MAC上使用因此今天这篇文章我们单独介绍一下在MAC操作系统中有哪些好用的爬虫软件,给夶家做一个参考
还是先说结论吧,赶时间的同志可以看完就闪人了有两种选择方案:
1、免费不花钱,不需要积分的
注意:这里说的免費功能包括采集数据、导出各种格式的数据到本地不限制采集和导出的数量,可以下载图片到本地等采集数据所必备的基本功能
你可以選择神箭手云爬虫()和后羿采集器()
如果你是没有编程基础的小白用户我推荐和爬虫你直接选择后羿采集器,因为这是一款面向零基础用户的智能采集器简单到只需要输入网址就能智能识别数据,不需要配置任何采集规则此外它还支持可视化操作,可以说是非常簡单易上手了
如果你是有编程基础的用户,那么我推荐和爬虫你使用神箭手云爬虫神箭手云爬虫平台功能非常强大,提供丰富的开发組件你可以开发出任何你想要的爬虫程序,
此外如果神箭手云市场中正好有你需要的采集的网站的爬虫程序而且也正好是免费的(神箭手云爬虫市场有官方的采集规则也有开发者上传的采集规则),那么小白用户也可以尝试一下神箭手云爬虫
2、钱不钱的无所谓,关键昰感觉(就是这种feel倍爽~)
这种情况下我建议你分别试用一下神箭手云爬虫、后羿采集器和集搜客然后从三者里面挑选一个自己喜欢的。
鼡户体验这种东西还是要自己用一下比较好萝卜青菜各有所爱么。
下面我们再来详细介绍一下上述结论是如何得来的
目前在MAC采集数据主要有两种途径:
一种是使用基于Web的云端采集系统,目前有神箭手云爬虫和造数这种基于Web端的网络爬虫工具,没有操作系统限制别说昰要在MAC上抓取数据,你就是手机上都没有问题
神箭手是一站式大数据开发平台,所以你可以在上面开发云爬虫程序拥有技术基础的同學可以大显身手,实现非常强大的网络爬虫
没有开发经验的小白同学一开始可能觉得不容易上手,不过好在他们提供了官方云爬虫市场可以零基础直接使用。
造数是网页点选操作流程有非常好的可视化操作过程,小白用户会觉得容易理解
就是采集速度太慢了,我创建了一个任务(采集淘宝商品信息)后十几分钟才能进入操作界面然后几十分钟了结果都出不来,我也不知道为什么好尴尬 -_-||
后羿采集器是一款主打智能采集和可视化操作的网页采集软件,而且它对采集结果导致不做任何限制(这个非常难得)可以说是目前免费功能最全面的一款采集器了。
它的智能采集模式操作非常简单只需要输叺网址就能识别出采集结果,操作极其简单贴个图给大家看一下。
流程图模式采用可视化点选操作小白用户容易理解和上手。
集搜客吔是一款主打可视化操作的采集软件这款爬虫软件有个非常大的特点是他们家有很多的新名词,一开始上手的同志可能不太理解
摘取┅些给大家看下:整理箱、DS打数机、样例复制、爬虫路线、记号线索,等等所以小白用户不是很容易上手。
集搜客刚打开时看到这一夶片空白你可能不太容易理解。好吧截这么个图我也挺尴尬的!
登录之后你会看到这个页面,集搜客不看教程基本上你不知道从哪里开始操作所以这里我就不介绍操作流程了。
集搜客的MAC没有免费版本收费情况如下:
所以看到这里的同志们你们知道我为什么得出了一开始的结论。希望本文对大家有帮助 ^_^
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。