sphinx长什么样和Elasticsearch有什么不同啊

点击联系发帖人 时间：2018-07-30 07:43

逃离金字塔sphinx攻略

2198 条评论分享收藏感谢阅读全文赞同 30添加评论分享收藏感谢阅读全文赞同 204 条评论分享收藏感谢阅读全文赞同 176 条评论分享收藏阅读全文赞同 10添加评论分享收藏感谢649博客分类：
1. Lucene及其变种
Lucene的开发语言是Java，也是Java家族中最为出名的一个开源搜索引擎，在Java世界中已经是标准的全文检索程序，它提供了完整的查询引擎和索引引擎，没有中文分词引擎，需要自己去实现，因此用Lucene去做一个搜素引擎需要自己去架构.另外它不支持实时搜索，但linkedin和twitter有分别对Lucene改进的实时搜素. 其中Lucene有一个C++移植版本叫CLucene，CLucene因为使用C++编写，所以理论上要比lucene快.
官方主页：http://lucene.apache.org/
CLucene官方主页：http://sourceforge.net/projects/clucene/
Solr是一个用java开发的独立的企业级搜索应用服务器，它提供了类似于Web-service的API接口，它是基于Lucene的全文检索服务器，也算是Lucene的一个变种，很多一线互联网公司都在使用Solr，也算是一种成熟的解决方案.
官方主页：http://lucene.apache.org/solr/
Elasticsearch
Elasticsearch是一个采用java语言开发的，基于Lucene构造的开源，分布式的搜索引擎. 设计用于云计算中，能够达到实时搜索，稳定可靠. Elasticsearch的数据模型是JSON.
官方主页：http://www.elasticsearch.org/
2.Xapian（C++）
用C++编写的全文检索引擎，和Java界的lucene类似。Xapian原生支持C/C++，并且也能够支持php、python等语言的动态绑定。
Xapian是一个用C++编写的全文检索程序，它的api和检索原理和lucene在很多方面都很相似，算是填补了lucene在C++中的一个空缺.
官方主页：http://xapian.org/
是一个基于SQL的全文检索引擎。特别为一些脚本语言（PHP,Python，Perl，Ruby）设计搜索API接口。
Sphinx是一个用C++语言写的开源搜索引擎，也是现在比较主流的搜索引擎之一，在建立索引的事件方面比Lucene快50%，但是索引文件比Lucene要大一倍，因此Sphinx在索引的建立方面是空间换取事件的策略，在检索速度上，和lucene相差不大，但检索精准度方面Lucene要优于Sphinx，另外在加入中文分词引擎难度方面，Lucene要优于Sphinx.其中Sphinx支持实时搜索，使用起来比较简单方便.
官方主页：http://sphinxsearch.com/about/sphinx/
开源Java实现的搜索引擎。包括了全文搜索和web爬虫。不会扭曲搜索结果（付费前排）。
Nutch是基于Luncene的，Luncene为Nutch提供了文本索引和搜索的API。如果不需要抓取数据的话，应该使用Luncene。
你有数据源，需要为这些数据提供一个搜索页面。在这种情况下，最好的方式是直接从数据库中取出数据并用Lucene API 建立索引。
在你没有本地数据源，或者数据源非常分散的情况下，应该使用Nutch。
Nutch是一个用java实现的开源的web搜索引擎，包括爬虫crawler，索引引擎，查询引擎. 其中Nutch是基于Lucene的，Lucene为Nutch提供了文本索引和搜索的API.
对于应该使用Lucene还是使用Nutch，应该是如果你不需要抓取数据的话，应该使用Lucene，最常见的应用是：你有数据源，需要为这些数据提供一个搜索页面，在这种情况下，最好的方式是直接从数据库中取出数据，并用Lucene API建立索引.
官方主页：http://nutch.apache.org/
nutch入门教程：http://wenku.baidu.com/link?url=fcVfcY3B3EC11zJ5pLKgbgmsmF0P166YBT-M32C-imP2e1TPYkufC6HiMNkS_hFaL3koCH0WsczXElBc36wPTTr0BfIkp56ECga14-iPweC
5.Whoosh（python）
唯一的python写的全文搜索引擎，性能不比sphinx、xapian等，不过他很小，安装后才2.61M，容易集成，小站可用。
Whoosh是一个用纯python写的开源搜索引擎.
官方主页：https://bitbucket.org/mchaput/whoosh/wiki/Home
6.Datapark search
Web-based search。主要用于站内搜索，内部搜索或本地系统的搜索。C语言实现。
DataparkSearch是一个用C语言实现的开源的搜索引擎. 其中网页排序是采用神经网络模型.
其中支持HTTP，HTTPS，FTP，NNTP等下载网页.包括索引引擎，检索引擎和中文分词引擎(这个也是唯一的一个开源的搜索引擎里有中文分词引擎).能个性化定制搜索结果，拥有完整的日志记录.
官方主页：http://www.dataparksearch.org/
基于倒排序索引结构的全文搜索开源引擎。基于C语言。
Zettair是根据Justin Zobel的研究成果为基础的全文检索实验系统.它是用C语言实现的. 其中Justin Zobel在全文检索领域很有名气，是业界第一个系统提出倒排序索引差分压缩算法的人，倒排列表的压缩大大提高了检索和加载的性能，同时空间膨胀率也缩小到相当优秀的水平. 由于Zettair是源于学术界，代码是由RMIT University的搜索引擎组织写的，因此它的代码简洁精炼，算法高效，是学习倒排索引经典算法的非常好的实例. 其中支持linux，windows，mac os等系统.
官方主页：http://www.seg.rmit.edu.au/zettair/about.html
参考文章：zettair介绍
支持文档索引。
Indri是一个用C语言和C++语言写的全文检索引擎系统，是由University of Massachusetts和Carnegie Mellon University合作推出的一个开源项目. 特点是跨平台，API接口支持Java，PHP，C++.
官方主页：http://www.lemurproject.org/indri/
桌面搜索引擎
Terrier是由School of Computing Science，Universityof Glasgow用java开发的一个全文检索系统.
官方主页：http://terrier.org/
Galago是一个用java语言写的关于文本搜索的工具集. 其中包括索引引擎和查询引擎，还包括一个叫TupleFlow的分布式计算框架(和google的MapReduce很像).这个检索系统支持很多Indri查询语言.
官方主页：http://www.galagosearch.org/
Zebra是一个用C语言实现的检索程序，特点是对大数据的支持，支持EMAIL，XML，MARC等格式的数据.
官方主页：https://www.indexdata.com/zebra
开源搜索引擎的比较，可能资料比较陈旧了。
下面这个13年的资料
http://www.360doc.com/content/15/143.shtml
浏览: 2276442 次
来自: 南京
麻烦问下，“获取每个Item相似性最高的前N个Item”，这个 ...
Java读源码之Netty深入剖析网盘地址：https://p ...
[size=medium][b]“更新一个文档”这部分的说法错 ...
以后看看，谢谢
(window.slotbydup=window.slotbydup || []).push({
id: '4773203',
container: s,
size: '200,200',
display: 'inlay-fix'搜索引擎选择： Elasticsearch与Solr
搜索引擎选型调研文档
Elasticsearch简介
Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。
它可以用于全文搜索，结构化搜索以及分析，当然你也可以将这三者进行组合。
Elasticsearch是一个建立在全文搜索引擎 Apache Lucene& 基础上的搜索引擎，可以说Lucene是当今最先进，最高效的全功能开源搜索引擎框架。
但是Lucene只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene。需要很多的学习了解，才能明白它是如何运行的，Lucene确实非常复杂。
Elasticsearch使用Lucene作为内部引擎，但是在使用它做全文搜索时，只需要使用统一开发好的API即可，而不需要了解其背后复杂的Lucene的运行原理。
当然Elasticsearch并不仅仅是Lucene这么简单，它不但包括了全文搜索功能，还可以进行以下工作:
分布式实时文件存储，并将每一个字段都编入索引，使其可以被搜索。
实时分析的分布式搜索引擎。
可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。
这么多的功能被集成到一台服务器上，你可以轻松地通过客户端或者任何你喜欢的程序语言与ES的RESTful API进行交流。
Elasticsearch的上手是非常简单的。它附带了很多非常合理的默认值，这让初学者很好地避免一上手就要面对复杂的理论，
它安装好了就可以使用了，用很小的学习成本就可以变得很有生产力。
随着越学越深入，还可以利用Elasticsearch更多高级的功能，整个引擎可以很灵活地进行配置。可以根据自身需求来定制属于自己的Elasticsearch。
使用案例：
维基百科使用Elasticsearch来进行全文搜做并高亮显示关键词，以及提供search-as-you-type、did-you-mean等搜索建议功能。
英国卫报使用Elasticsearch来处理访客日志，以便能将公众对不同文章的反应实时地反馈给各位编辑。
StackOverflow将全文搜索与地理位置和相关信息进行结合，以提供more-like-this相关问题的展现。
GitHub使用Elasticsearch来检索超过1300亿行代码。
每天，Goldman Sachs使用它来处理5TB数据的索引，还有很多投行使用它来分析股票市场的变动。
但是Elasticsearch并不只是面向大型企业的，它还帮助了很多类似DataDog以及Klout的创业公司进行了功能的扩展。
Elasticsearch的优缺点:
Elasticsearch是分布式的。不需要其他组件，分发是实时的，被叫做&Push replication&。
Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。
处理多租户（）不需要特殊配置，而Solr则需要更多的高级设置。
Elasticsearch 采用 Gateway 的概念，使得完备份更加简单。
各节点组成对等的网络结构，某些节点出现故障时会自动分配其他节点代替其进行工作。
只有一名开发者（当前Elasticsearch GitHub组织已经不只如此，已经有了相当活跃的维护者）
还不够自动（不适合当前新的Index Warmup API）
Solr（读作&solar&）是Apache Lucene项目的开源企业搜索平台。其主要功能包括全文检索、命中标示、分面搜索、动态聚类、数据库集成，以及富文本（如Word、PDF）的处理。Solr是高度可扩展的，并提供了分布式搜索和索引复制。Solr是最流行的企业级搜索引擎，Solr4 还增加了NoSQL支持。
Solr是用Java编写、运行在Servlet容器（如 Apache Tomcat 或Jetty）的一个独立的全文搜索服务器。 Solr采用了 Lucene Java 搜索库为核心的全文索引和搜索，并具有类似REST的HTTP/XML和JSON的API。Solr强大的外部配置功能使得无需进行Java编码，便可对其进行调整以适应多种类型的应用程序。Solr有一个插件架构，以支持更多的高级定制。
因为2010年 Apache Lucene 和 Apache Solr 项目合并，两个项目是由同一个Apache软件基金会开发团队制作实现的。提到技术或产品时，Lucene/Solr或Solr/Lucene是一样的。
Solr的优缺点
Solr有一个更大、更成熟的用户、开发和贡献者社区。
支持添加多种格式的索引，如：HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式。
Solr比较成熟、稳定。
不考虑建索引的同时进行搜索，速度更快。
建立索引时，搜索效率下降，实时索引搜索效率不高。
Elasticsearch与Solr的比较
当单纯的对已有数据进行搜索时，Solr更快。
当实时建立索引时, Solr会产生io阻塞，查询性能较差, Elasticsearch具有明显的优势。
随着数据量的增加，Solr的搜索效率会变得更低，而Elasticsearch却没有明显的变化。
综上所述，Solr的架构不适合实时搜索的应用。
实际生产环境测试
下图为将搜索引擎从Solr转到Elasticsearch以后的平均查询速度有了50倍的提升。
Elasticsearch 与 Solr 的比较总结
二者安装都很简单；
Solr 利用 Zookeeper 进行分布式管理，而 Elasticsearch 自身带有分布式协调管理功能;
Solr 支持更多格式的数据，而 Elasticsearch 仅支持json文件格式；
Solr 官方提供的功能更多，而 Elasticsearch 本身更注重于核心功能，高级功能多有第三方插件提供；
Solr 在传统的搜索应用中表现好于 Elasticsearch，但在处理实时搜索应用时效率明显低于 Elasticsearch。
Solr 是传统搜索应用的有力解决方案，但 Elasticsearch 更适用于新兴的实时搜索应用。
其他基于Lucene的开源搜索引擎解决方案
说明：Lucene 是一个 JAVA 搜索类库，它本身并不是一个完整的解决方案，需要额外的开发工作。
优点：成熟的解决方案，有很多的成功案例。apache 顶级项目，正在持续快速的进步。庞大而活跃的开发社区，大量的开发人员。它只是一个类库，有足够的定制和优化空间：经过简单定制，就可以满足绝大部分常见的需求；经过优化，可以支持 10亿+ 量级的搜索。
缺点：需要额外的开发工作。所有的扩展，分布式，可靠性等都需要自己实现；非实时，从建索引到可以搜索中间有一个时间延迟，而当前的&近实时&(Lucene Near Real Time search)搜索方案的可扩展性有待进一步完善
说明：基于 Lucene 的，支持分布式，可扩展，具有容错功能，准实时的搜索方案。
优点：开箱即用，可以与 Hadoop 配合实现分布式。具备扩展和容错机制。
缺点：只是搜索方案，建索引部分还是需要自己实现。在搜索功能上，只实现了最基本的需求。成功案例较少，项目的成熟度稍微差一些。因为需要支持分布式，对于一些复杂的查询需求，定制的难度会比较大。
说明：Map/Reduce 模式的，分布式建索引方案，可以跟 Katta 配合使用。
优点：分布式建索引，具备可扩展性。
缺点：只是建索引方案，不包括搜索实现。工作在批处理模式，对实时搜索的支持不佳。
说明：基于 Lucene 的一系列解决方案，包括准实时搜索 zoie ，facet 搜索实现 bobo ，机器学习算法 decomposer ，摘要存储库 krati ，数据库模式包装 sensei 等等
优点：经过验证的解决方案，支持分布式，可扩展，丰富的功能实现
缺点：与 linkedin 公司的联系太紧密，可定制性比较差
说明：基于 Lucene，索引存在 cassandra 数据库中
优点：参考 cassandra 的优点
缺点：参考 cassandra 的缺点。另外，这只是一个 demo，没有经过大量验证
说明：基于 Lucene，索引存在 HBase 数据库中
优点：参考 HBase 的优点
缺点：参考 HBase 的缺点。另外，在实现中，lucene terms 是存成行，但每个 term 对应的 posting lists 是以列的方式存储的。随着单个 term 的 posting lists 的增大，查询时的速度受到的影响会非常大
转载：http://blog.csdn.net/jameshadoop/article/details/
阅读(...) 评论() &10添加评论分享收藏感谢收起赞同 2添加评论分享收藏感谢收起Python Elasticsearch Client & Elasticsearch 6.3.0 documentation}

叫阿莫西中心