百度是如何使用hadoop使用教程的,并且做了哪些改进

您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
IT面试()之2015届校招百度校招笔试面试大礼包.pdf71页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
文档加载中...广告还剩秒
需要金币:160 &&
你可能关注的文档:
··········
··········
2015 届百度校招笔试面试大礼包 新浪微博:IT 面试论坛 /free4294 微信公共账号:itmian4 1 目 录
1. 百度公司简介.................................................3
2. 百度笔试分享.................................................4 2.1
2014 百度校园招聘软件开发笔试题 上海站
.................4 2.2 百度2014 校招移动研发笔试题目 北京站 ....................5 2.3 百度2014 校园招聘深度学习算法研发工程师笔试题............6 2.4 百度2014 校园招聘客户端开发笔试题 南京站 ................7 2.5 2014 百度校招PC 客户端研发笔试题 西安站
.................8 2.6 百度2014 校招系统分析师笔试题 武汉站 ...................10 2.7 百度2014 测试工程师笔试题 沈阳站 .......................10
百度面试分享................................................14 3.1
2014 年百度移动云可穿戴部门的面试经历分享..............14 3.2
2014 校招百度研发类一面二面经验........................17 3.3
2014 年百度质量保证部的面试题..........................20 3.4
百度2014 终端类校招笔试面试总结 .......................24 3.5
2014 百度产品运营面试经验分享..........................28 3.6
2014 百度校招产品群面二面经验分享......................38 3.7
百度前端研发部官方提供的开源面试题目分享 ..............43
百度职场....................................................51 4.1
离职员工对百度的评价 ..................................51 4.2
百度论语 ..............................................60
百度故事....................................................66 5.1
李彦宏:技术改变世界 ..................................66 5.2
李彦宏背后的女人:没有妻子就没有百度 ...................69 2
1. 百度公司简介 百度(Nasdaq 简称:BIDU )是全球最大
正在加载中,请稍后...百度是如何使用hadoop的,并且做了哪些改进_百度知道解密百度大数据:百度是如何使用hadoop的,并且做了哪些改进?-互联网分析沙龙
分类 CATEGORY
后使用快捷导航没有帐号?
解密百度大数据:百度是如何使用hadoop的,并且做了哪些改进?
沙龙君引读:百度作为全球最大的中文搜索引擎公司,提供基于搜索引擎的各种产品,几乎覆盖了中文网络世界中所有的搜索需求,因此,百度对海量处理的要求是比较高的, 要在线下对数据进行分析,还要在规定的时间内处理完并反馈到平台上。百度在互联网领域的平台需求要通过性能较好的云平台进行处理了,Hadoop就是很好 的选择。在百度,Hadoop主要应用于以下几个方面:日志的存储和统计;网页数据的分析和挖掘;商业分析,如的行为和广告关注度等;在线数据的反馈,及时得到在线广告的点击情况;用户网页的聚类,分析用户的推荐度及用户之间的关联度。MapReduce主要是一种思想,不能解决所有领域内与计算有关的问题,百度的研究人员认为比较好的模型应该如下图:HDFS 实现共享存储,一些计算使用MapReduce解决,一些计算使用MPI解决,而还有一些计算需要通过两者来共同处理。因为MapReduce适合处理数 据很大且适合划分的数据,所以在处理这类数据时就可以用MapReduce做一些过滤,得到基本的向量矩阵,然后通过MPI进一步处理后返回结果,只有整 合技术才能更好地解决问题。百度现在拥有3个Hadoop集群,总规模在700台机器左右,其中有100多台新机器和600多台要淘汰的机器(它们的计算能力相当于200多台新机器),不过其规模还在不断的增加中。现在每天运行的MapReduce任务在3000个左右,处理数据约120TB/天。百度为了更好地用Hadoop进行数据处理,在以下几个方面做了改进和调整:(1)调整MapReduce策略限制作业处于运行状态的任务数;调整预测执行策略,控制预测执行量,一些任务不需要预测执行;根据节点内存状况进行调度;平衡中间结果输出,通过压缩处理减少I/O负担。(2)改进HDFS的效率和功能权限控制,在PB级数据量的集群上数据应该是共享的,这样分析起来比较容易,但是需要对权限进行限制;让分区与节点独立,这样,一个分区坏掉后节点上的其他分区还可以正常使用;修改DSClient选取块副本位置的策略,增加功能使DFSClient选取块时跳过出错的DataN解决VFS(Virtual File System)的POSIX(Portable
Operating System Interface of Unix)兼容性问题。(3)修改Speculative的执行策略采用速率倒数替代速率,防止数据分布不均时经常不能启动预测执行情况的发生;增加任务时必须达到某个百分比后才能启动预测执行的限制,解决reduce运行等待map数据的时间问题;只有一个map或reduce时,可以直接启动预测执行。(4)对资源使用进行控制对应用物理内存进行控制。如果内存使用过多会导致操作系统跳过一些任务,百度通过修改Linux内核对进程使用的物理内存进行独立的限制,超过阈值可以终止进程。分组调度计算资源,实现存储共享、计算独立,在Hadoop中运行的进程是不可抢占的。在大块文件系统中,X86平台下一个页的大小是4KB。如果页较小,管理的数据就会很多,会增加数据操作的代价并影响计算效率,因此需要增加页的大小。百度在使用Hadoop时也遇到了一些问题,主要有:MapReduce的效率问题:比如,如何在shuffle效率方面减少I/O次数以提高并行效率;如何在排序效率方面设置排序为可配置的,因为排序过程会浪费很多的计算资源,而一些情况下是不需要排序的。HDFS的效率和可靠性问题:如何提高随机访问效率,以及数据写入的实时性问题,如果Hadoop每写一条日志就在HDFS上存储一次,效率会很低。内存使
用的问题:reducer端的shuffle会频繁地使用内存,这里采用类似Linux的buddy system来解决,保证Hadoop用最小的开销达到最高的利用率;当Java 进程内容使用内存较多时,可以调整垃圾回收(GC)策略;有时存在大量的内存复制现象,这会消耗大量CPU资源,同时还会导致内存使用峰值极高,这时需要
减少内存的复制。作业调度的问题:如何限制任务的map和reduce计算单元的数量,以确保重要计算可以有足够的计算单元;如何对TaskTracker进行分组控制,以限制作业执行的机器,同时还可以在用户提交任务时确定执行的分组并对分组进行认证。性能提
升的问题:UserLogs cleanup在每次task结束的时候都要查看一下日志,以决定是否清除,这会占用一定的任务资源,可以通过将清理线程从子Java进程移到 TaskTracker来解决;子Java进程会对文本行进行切割而map和reduce进程则会重新切割,这将造成重复处理,这时需要关掉Java进程 的切割功能;在排序的时候也可以实现并行排序来提升性能;实现对数据的异步读写也可以提升性能。健壮性
的问题:需要对mapper和reducer程序的内存消耗进行限制,这就要修改Linux内核,增加其限制进程的物理内存的功能;也可以通过多个map 程序共享一块内存,以一定的代价减少对物理内存的使用;还可以将DataNode和TaskTracker的UGI配置为普通用户并设置账号密码;或者让 DataNode和TaskTracker分账号启动,确保HDFS数据的安全性,防止Tracker操作DataNode中的内容;在不能保证用户的每 个程序都很健壮的情况下,有时需要将进程终止掉,但要保证父进程终止后子进程也被终止。Streaming 局限性的问题:比如,只能处理文本数据,mapper和reducer按照文本行的协议通信,无法对二进制的数据进行简单处理。为了解决这个问题,百度人
员新写了一个类Bistreaming(Binary Streaming),这里的子Java进程mapper和reducer按照(KeyLen,Key,ValLen,Value)的方式通信,用户可以 按照这个协议编写程序。用户认证的问题:这个问题的解决办法是让用户名、密码、所属组都在NameNode和Job Tracker上集中维护,用户连接时需要提供用户名和密码,从而保证数据的安全性。百度下一步的工作重点可能主要会涉及以下内容:内存方面,降低NameNode的内存使用并研究JVM的内存管理;调度方面,改进任务可以被抢占的情况,同时开发出自己的基于Capacity的作业调度器,让等待作业队列具有优先级且队列中的作业可以设置Capacity,并可以支持TaskTracker分组;压缩算
法,选择较好的方法提高压缩比、减少存储容量,同时选取高效率的算法以进行shuffle数据的压缩和解压;对mapper程序和reducer程序使用
的资源进行控制,防止过度消耗资源导致机器死机。以前是通过修改Linux内核来进行控制的,现在考虑通过在Linux中引入cgroup来对
mapper和reducer使用的资源进行控制;将DataNode的并发数据读写方式由多线程改为select方式,以支持大规模并发读写和 Hypertable的应用。百度同时也在使用Hypertable,它是以Google发布的BigTable为基础的开源分布式数据存储系统,百度将它作为分析用户行为的平台,同时在元数据集中化、内存占用优化、集群安全停机、故障自动恢复等方面做了一些改进。 12:20
|来自: 开源中国
微信jing2132132
文章:9499篇
浏览:146905次
关注互联网沙龙分析
微信扫描二维码关注
互联网分析沙龙微信号就搜索技术而言,百度和 Google 是一个量级的吗?
就搜索技术而言,百度和 Google 是一个量级的吗?
,Google用户,缅怀死掉的GR
很多答案是从使用上讲的,我加两个技术方面的。搜索引擎需要对抓取到的结果进行管理。当索引结果越来越多时,保证存储和查询速度,保证数万台服务器内容一致的难度越来越高。Google于03至06年左右公布了三篇论文,描述了GFS、BigTable、MapReduce三种技术以解决这些问题。由于Google并没有公布算法细节,因此由雅虎牵头,在06年左右建立了开源项目Hadoop,目的是根据Google的三篇论文,实现一个大规模的管理计算系统。但直到08年,Hadoop同Google公布的一些关键指标仍有几倍的差距。百度曾经由王选院士的一个博士带领,想基于Google论文独立实现(金字塔计划)一个自己的系统,但开发难度过大项目夭折,最终也转向了Hadoop。如今,Amazon、Facebook、Yahoo包括百度都在大规模应用Hadoop,而Google已经从2010年开始迁移到新的三驾马车Caffeine、Pregel、Dremel上了。单就搜索技术而言,Google不是领先百度,而是领先全世界。年,Google公布了世界上第一个全球化的数据库系统Spanner,这套系统将分布在全球各地的数据中心连接到一起,利用原子钟和GPS,打破了地理间隔,实现了全球规模具有一致性和实时性的数据库。在Google之前,很多人认为这种系统不可能做出来,但Google做到了[1]。另外,除了搜索,Google在深度学习和机器人方面也是全球领先的,尤其是后者。尽管百度也有深度学习研究院,但在这两方面跟Google比起来完全是空白。事实上,让百度来和谷歌比是很不公平的,搜索只是Google的一个部门,但却是百度一整个公司。Google的竞争对手是Apple、Amazon、Facebook和Microsoft,百度的竞争对手是360、搜狗。Google没了搜索,还有Chrome、Android、Youtube,百度没了搜索,那就什么都没有了。[1]
,财务自由,足迹自由,心灵自由。
好吧,既然大家都一致鄙视百度,为谷歌欢喜鼓舞的叫好,我就来插一脚,为百度打抱不平一下吧。声明立场:我承认谷歌在很多方面很强,这里只是说一些百度也不错的地方。给大家提供一些新的思维,希望能够对大家有启发。1,在搜索江湖的早期历史中,李彦宏的技术创新领先于谷歌。1994年,infoseek公司成立,其后推出搜索引擎服务,很快成为了市场上最受欢迎的搜索技术提供商。作为技术的领先者,这家公司的产品被网景浏览器设置为默认的搜索引擎。要知道,在那个年代的美国市场上,网景浏览器占有了90%以上的市场份额。于是,在网景春风得意的岁月里,搜索引擎=infoseek。——infoseek的CTO是威廉张,曾经以“次线性文本匹配算法上的突破性成果获得了美国加州大学的计算机博士学位”,其后于2006年加入百度成为首席科学家。——infoseek的核心研发工程师是李彦宏,其首创的“超链分析”技术是现代搜索引擎的基础发明之一。这个技术率先解决了如何将基于网页质量的排序与基于相关性的排序完美结合的问题,并获得了美国专利。在搜索引擎的早期发展史中,李彦宏+威廉张,无疑是技术的领先者。在1998年的布里斯班世界互联网大会上,李彦宏是主讲台上的技术布道者,而谷歌的两位创始人仍是坐在台下聆听的学生而已。infoseek的衰落,不是因为技术,而是因为商业模式,他仅仅是隐藏在网景浏览器背后的技术提供者。随着网景在与微软IE浏览器的竞争中失利,infoseek无可避免的出现了大幅亏损,贱卖给迪士尼后不适应于传统企业的官僚管理作风,更加加速了自己的末日到来。同一年,谷歌推出自己的搜索引擎,以精准广告为商业模式,成功解决了持续成长的问题,在搜索江湖的较量中熬到了最后。谷歌今日引以为荣的网页评级机制pagerank技术,直到2001年才被授予美国专利,比李彦宏的1996年申请的超链分析专利技术晚了5年。注意:我以上这段要说的是,李彦宏的技术水平并不输于谷歌的两位创始人。看轻百度那你就无知了。2,百度从一开始就和谷歌走上了不同的发展方向。谷歌在2000年就已经建立了搜索行业的统治地位,而在这一年,李彦宏才回国创业,无论在资金还是人才上都处于绝对劣势地位。百度如果要跟谷歌比拼搜索精度,那是飞蛾扑火,李彦宏当然不会犯下这种蠢事。从一开始,百度所选择的就是一条农村包围城市,侧翼攻击的路线。在早期的网页搜索上,百度的原则是能用就行。所以,你在百度上搜到的,几乎都是网站的首页,而谷歌的都是内页。百度的真正重点是,提供谷歌不能提供的服务。2002年,百度率先推出mp3音乐搜索,2003年推出图片,贴吧,新闻,搜索风云榜服务。正是这些多元化的垂直服务,让百度实现了在中国市场上的后来者居上。如果你了解百度的历史,你就知道,在早期的百度流量中,mp3盗版音乐的搜索和下载,一度贡献了40-50%的用户来源。贴吧同样获得巨大成功,在2004年的超级女声热潮中,大量的音乐粉丝涌入贴吧为他们的偶像加油,这个产品一度为百度带来了超过20%的流量。mp3,图片,贴吧,是百度早期最重要的三项服务,他们的流量贡献加起来甚至超过了网页搜索。3,百度真正在搜索技术上开始发力,是在2009年后。这一年,百度推出框计算,在一站式生活搜索方面,开始超越谷歌。举个例子:——————判断百度和谷歌在搜索技术上是不是一个量级的标准是什么?技术是不是一个量级,不是由一堆玄而又玄的技术名词决定的,而是由行业发展过程中对实际需求的满足变化决定的。举个例子,飞机时代的划分,一代机:喷气发动机二代机:高空高速,2倍音速三代机:中低空机动敏捷性四代机:隐身性能二代机比一代机性能更好,飞的更高,速度更快,但是到了三代机的时代,即使你的飞行能够去到3万米高度又怎么样?这个时代更讲究的是低空的格斗性能。到了四代机的时代,隐身性能才是决定性的,你机动性再好也没用了,你发现不了敌人。到了今日,智能无人机技术又是起决定性作用的技术,其他的都不重要了。技术的发展并不是线性的,而是理念的改变,带来了更革命性的进步。一架性能差点的隐形机,比一架没有隐形性能的三代机,谁的作战效果更好?什么,你认为隐形技术不是技术,发动机性能才是技术?别脑残了好不好。说回搜索引擎技术的发展,无非就是为了让人们更好的找到自已需要的信息,是搜索结果的准确性,而不是收录的网页数量,拥有的专利数量决定的。第一代搜索引擎:以雅虎为代表,目录式结果呈现。第二代搜索引擎:以谷歌和百度为代表,网页引用评级技术呈现结果,至于权重设置的不同考虑不能体现差距。第三代搜索引擎:不知道各位的划分标准是什么,是什么gps和原子钟技术么?实际使用中差别有革命性变化么?反正我是感觉不出来。谷歌的技术创新能力很强,在安卓系统、无人驾驶汽车、谷歌眼镜这些技术上都有很多创新,但在搜索引擎技术上,我的感觉是,最近5年来并没有明显的进步。相反,百度从2008年到2013年这5年,我的使用体验感觉是进步很明显的。在我看来,搜索引擎发展到今天这个时代,更重要的趋势是智能化的语义理解,而不是一楼答案所说的“gps和原子钟技术,打破了地理间隔,实现了全球规模具有一致性和实时性的数据库。”收录的网页多一些,搜索的速度快0.001秒,这些微不足道的区别,就相当于IPHONE4和IPHONE4S的区别,或许是挑战了新的技术极限,但是对于普通用户的实际体验来说,区别不大。而三星的大屏智能手机,在很多人看来并没有什么高深的技术,但是偏偏是更满足用户的使用体验和需求的,于是三星的市场份额就不断壮大了。百度所发展的框计算技术,在我看来,恰恰是更适合搜索引擎行业发展趋势的。让你的搜索更能理解你的问题,给你更准确的答案,——不用跳转就将答案直接呈现在你的面前。什么?你认为百度这样违背了搜索的公平公正精神?别脑残了,搜索就是为用户服务的,谁能够在最短的时间内让用户得到最正确的答案,对于用户来说就是最好的搜索体验。将来语音搜索技术成熟了,你说告诉我王菲唱过什么流行歌?百度直接就将歌曲列表呈现出来,按热门度排列供你选择播放,谷歌先问你,我这里有**,**,**,音乐公司提供的服务,请选择,进了音乐公司的链接,音乐公司又说,请先登录会员,登陆会员后……如此一番下来,谁的服务更好,自己考量吧。——通过知道、贴吧、百科、第三方网站的接入,综合满足你的多方位搜素需求,而不是只提供一个单一的网页。你想去某个地方,告诉你汽车、火车、飞机不同交通手段的通行方式,告诉你花费的时间,购买的费用,直接购买的入口,而不是只有一个冷冰冰的第三方链接。你输入一个名人的名字,呈现给你相关的照片、影视作品、最新的新闻、粉丝讨论的社区、与名人存在社交关系的名人链接,所有这些服务,都是非常直观的,而不是只像谷歌一样给你一个维基百科了事。——搜索的问题不止于“等于”,而是“相当于”等类似问题都能听懂。所谓智能,不就是即使我语法用错了,也能听懂么?在这一点上,或许谷歌在英文上也有一些应用提供,但是百度做的更加深入、更加完善,从这个角度来说,他们不但是一个量级的,百度也有领先谷歌的地方。很多人认为百度的搜索答案都只是人工干预的结果,没有技术含量,我感到很遗憾。或许早年是如此,但是现在应该已经有很大的改进了。我举个例子。前面的谢霆锋的身高的问题,为什么百度能够给我答案,谷歌给不了呢?百度该不会无聊到这么细节的问题都专门去优化一下答案吧,当然不是了,这些答案都是依托于百科里用户自行编写的答案,百度不过是把他们的知识有机的整合起来,通过程序的设计,巧妙的呈现到你的面前。是的,谷歌的搜索技术很先进,但他的所有答案都是依托于外部链接的,他没有自己的知识库。这就像一个人,他的逻辑思维和知识是割裂的,可以给你答案,但这答案必然是生硬的,无法做到水乳交融。百度不同的是,他是有自己的知识库的,知道,贴吧,百科,这三个社区的知识可以跟他的思维进行有机整合,将得票最高的热门答案很直观的呈现到你的面前。…………正是因为有前面这些有机整合为基础,百度可以通过逻辑思考,a推出b,b推出c,c推出d的结论,将答案d呈现到你的问题结果里。但谷歌就做不到,他只能给你答案b,c之后的结论就只能由你自己去寻找了。这就是为什么我问张柏芝的儿子的爸爸的身高,百度能够告诉我的原因。所谓深度学习,不就是人类知识库的有机整合嘛,谷歌的思维和知识库的割裂,导致了在这方面的进步必然要慢于百度,原理就像是一个人的头脑指挥自己的手脚必然比两个人的合作效率更高。因此在未来的搜索技术竞争中,我认为百度的路线是正确的。有朋友问,为什么你问谢霆锋的身高就能搜到答案,我问陈冠西或者毛泽 东就搜不到呢?请记住,这些类似问题的答案完全取决于用户在社区里的编写。在张柏芝的百科里有提及,儿子是谢振轩,在谢振轩的百科里有提及,老子是谢霆锋,在谢霆锋的百科里有提及,身高是174,那么你就能搜到这个答案。如果其中任何一个环节出现了缺失,你就无法得到答案。答案的正确与否,取决于知识库的自我完善和纠错。就像你问百度是个大SB吗?百度知道的高票答案告诉你百度就是个大SB。这能说明这个答案是百度的人工干预吗?很明显不能嘛,这只能说明SB用户太多了而已。就像知乎的答案一样,开始问题提出的时候,高票答案是错误的,没有关系,慢慢的新的正确答案会被顶上去,错误答案会被折叠或者报错。人类的知识库是在不断的自我完善和丰富的,百度的算法也是在不断改进的,目前这些技术仍然处于起步阶段,请以发展的眼光来看待他。PS:那些说我偏袒百度的朋友们:在这个提问下面,为谷歌敲锣打鼓,大声赞美的答案还不够多么?难道你们的心里就不能容忍一个不同的声音,非要我也来高呼,谷歌千秋万代,一统江湖,你才满意么?!说我不懂谷歌关键字搜索技巧的朋友们:我怎么会不懂呢?但是一定要懂关键字,搜索引擎才能听懂,换个字眼,换个语法,他就不懂了,这语言理解水平也太烂了吧?你确定你不是在黑谷歌?!搜索引擎行业的技术发展方向,一定是“自然语言人机对话+智能化逻辑思考”。 不要跟我说,百度是给你答案,谷歌是给你思考,人永远是懒惰的动物,希望产品适应人的需求,而不是人去适应产品的要求。在这个方面,百度的技术发展水平与谷歌的差距是越来越接近的。须知,技术的研发来自金钱的投资和人才的聚集,百度在2008年后才逐渐拥有一定的家底,开始加大在搜索技术的研发投入;而谷歌,她的研发重点已经转移至其他的领域了。这就是百度与谷歌在搜索技术的发展水平越来越接近的主要原因。update:刚刚看了百度发布的2013Q4财报——百度2013年度总营收为319.44亿元,同比增长43.2%;净利润为105.19亿元,同比增长0.6%。 之所以会出现,营收高速增长,而利润停滞不前的状况,主要的原因是着眼于未来的研发投资在以更高的速度增长:2013年全年,百度研发投入达人民币41.07亿元,相比2012年增长78.2%,占全年总营收的比例接近13%,2012年这一比例为10%,单单在第四季度,百度的员工就增加了5300人,其中绝大部分是研发人员。与之相比,谷歌的营收规模虽然更高,但是营收增长速度只有12%,研发投入占营收比例在12%左右。在分析师会议上,百度强调,目前的研发重点在:移动端搜索、云服务、LBS(基于位置的服务)三个方面。引用一篇新闻报道:2013年,百度多项创新技术取得突破,如人脸搜索、图像识别、语音识别等。如今,百度已经拥有业界领先的人脸检测、特征点定位、性别判断、身份识别以及大规模人脸检索等常规的人脸识别技术。并且,很大一部分已经被广泛用于图像搜索、贴吧、百度知心、百度框、云相册、媒体云等重要产品线上。同时,百度的图像识别技术也已成功产品化,如凭借趣味性和无穷创意走红网络的百度“实物翻译”,用户只需打开实物翻译功能,对着物体拍张照,软件就能迅速识别并翻译成英文。百度翻译凭借实物翻译功能受到用户欢迎,成为一款同类软件根本无从模仿的应用,这不仅是百度在交互模式领域的一次具有跨时代意义的探索,更显示其背后的巨额科研投入的努力。提到语音识别技术,百度在经历了摸索期之后同样迎来了开花、结果,其语音识别准确率已经超越竞争对手。不仅如此,在“2013百度世界大会”上,百度还宣布向开发者免费开放整个语音识别平台,致力于打造一个听得懂人类语言背后隐藏意图的“大脑神经系统”。除此之外,百度在2013年更是将Deep Learning提到核心技术创新地位,建立公司历史上第一个研究院Idl(Institute of Deep Learning,深度学习研究院)。在全球范围内,目前除斯坦福大学等高校研究机构外,唯有百度、IBM、谷歌、微软四家企业设立了专门研究机构,形成深度学习研究的第一阵营。通过Idl,2013年百度在多个前瞻性科研项目上取得丰硕果实。比如,自然场景OCR,其作用是在自然场景拍摄的图像中准确检测并识别出其中的文字内容,它在信息搜索、地理位置信息服务、文字翻译、盲人辅助阅读、图像标注、人机交互等众多场合下有着广阔的应用前景。
,前百度員工
前百度員工,現 Google 員工,在兩個公司做的都不是搜索相關項目。先一句話回答:在與搜索相關的基礎技術方面,百度距離 Google 仍有很大的差距,但今天是否還存在量級上的差距存疑。開頭先扯個不相干的領域,蘇聯 1960 年代裝備的 Mig-25 [1] 截擊機,這是世界上第一款能飛雙三(三倍音速,30000米升限)的戰鬥機。西方世界面對這變態的性能參數驚詫莫名,推斷蘇聯在航空技術上已全面超越西方。直到別連科駕駛 Mig-25 叛逃西方,他們終於有機會接觸真機,才發現它使用的技術其實沒那麼先進,變態的性能指標都是用普通的技術基礎硬幹上去的,飛機非常笨拙以至有「直線戰鬥機」的稱號,可憐的發動機要真飛一次三倍音速落地就得報廢。蘇聯的航空技術並沒有他們想象的這麼逆天。2009 年我在百度,面對 Google 公開的技術資料和百度的內部系統,我首先想起的就是 Mig-25. 就跟這臺戰機一樣,當時的百度,在中文搜索結果質量的各項指標上,對比 Google 還是有優勢。百度的工程師非常聰明,也非常努力,在某些點上也做得很細很出色,但是在與搜索相關的基礎技術上,百度還是全面落後。百度的搜索質量提高,有很大部分是依靠人工做大量細緻的策略調整硬拉上去的。用普通技術飛上雙三,Mig-25 本身是個了不起的工程成就。下一代戰機,不管是蘇聯的 Su-27 還是美國的 F-15, 乃至四代機 F-22, 都沒有能飛出雙三來的,但這些下一代戰機在技術水準和整體性能上,無疑遠勝 Mig-25, 這應該能算得上題主所說的量級差異。技術的量級差異不能拿某個特定指標或孤例評估(Mig-25 還曾擊落過 F/A-18 呢),也不能只比較某些技術點上的優劣,而往往是決定於基礎技術水平。在 2009 年,我可以很肯定地說百度搜索相關的基礎技術對比 Google 有量級差距。據我了解,這些年百度在基礎技術方面進步很快,當然同時 Google 也在快速進步。它們在今天是否有量級的差異,我不確定。下面列幾個重要的而且公開資料較多的基礎技術:大規模機群建設與管理。Google 的情況可以參見 [2] The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines, Second Edition. Google 擁有世界上最大的計算機集群,論機器數量的話能在量級上超過所有其他公司。同時,它有一整套自動化管理軟件,以便工程師申請和使用這些硬件資源(大致可以理解成一套 Amazon EC2)。就我的了解,現在在普通工程師使用機群硬件資源的方便程度和可以使用的量上,百度還是遠遠不及。 大規模計算與存儲。Google 論文老三篇 GFS, MapReduce, BigTable 不再贅述,近年 Google 在這些方面的研發和進步沒有停滯甚至在加快。當然百度也在努力追趕,百度不僅使用 Hadoop, 而且基於 Hadoop 做了大量改進和擴展,並貢獻回 Hadoop 開源社區。百度在 SSD 存儲技術等方面也很有心得,比如 flash 存儲方面最近中了的一篇 ASPLOS '14
SDF: Software-Defined Flash for Web-Scale Internet Storage System.機器學習和人工智能。被吹得神乎其神的 deep learning 和 Google Brain 等等。在 deep learning 這個相對較新的領域,百度追趕的更快,水平也更接近。機群管理的技術水平決定你能擁有和有效使用多少硬件資源,大規模計算與存儲決定你能在這些硬件上做多大規模的事情 —— 而最後,搜索引擎本身就是一套大規模機器學習系統。在純技術之外,我想特別提一點極大影響技術進步,而至少在 2009 年百度與 Google 差距巨大的因素:普通工程師所能使用的工具水平。我在 Google 感覺最爽的事情是我可以很容易獲得大量的計算資源,做以前無法想象的大規模數據分析。要驗證一個想法,我可以基於一整天的搜索記錄做分析,只需幾分鐘就能得到結果(參見 [3]),進行調整和下一步分析;而如果沒有這套基礎軟件和可以隨意使用的硬件資源,我可能得等一整天才能有結果,或者只能分析小規模的抽樣數據。在我自己的知識和技術水平不變的前提下,Google 這套系統極大地提高了我的工作效率,讓我能做到以前完全無法想象的事情。我覺得作為一個技術人員,黑或者捧哪個公司毫無意義,技術的事情很直接的,身在哪個公司都無法影響基本判斷。還在百度的時候,我就經常想,Mig-25 的故事是個很好的警示,人很容易為類似「雙三」這樣的成就沾沾自喜,而對實打實的基礎技術差距視而不見,不圖進步,那前景就相當危險了。幸好據我所知的情況,百度可沒有這麼不爭氣。[1] [2] [3]
,一入知乎深似海。。。
我是来反对大大 及其它部分网友答案的,如果觉得有道理请点赞帮忙顶起来,谢谢!:(提醒,多图长文)一.在搜索江湖的早期历史中,李彦宏的技术创新领先于谷歌1.我的理解,题主问题的语境是当下,就算是“曾经领先”并不能说明什么。2.到底是不是曾经领先呢?在搜索引擎的早期发展史中,李彦宏+威廉张,无疑是技术的领先者。在1998年的布里斯班世界互联网大会上,李彦宏是主讲台上的技术布道者,而谷歌的两位创始人仍是坐在台下聆听的学生而已。这一说法是有一些争议的,曾经有网友置疑过,我摘录如下:(完整链接:)以前我曾在很多地方看到,李彦宏说上世纪90年代中期,他在澳大利亚讲超链分析,有两个斯坦福的学生坐在台下,后来这两个学生做出了Google。不过我一直没太搞清楚这事儿的先后次序,到底是李彦宏的启蒙在前,还是Page和Brin的实践在前。终于梁冬的书中,这个会议的时间是1998年4月,地点是澳大利亚的布里斯班。如果没有搞错,这应该就是第七届国际WWW大会。不过这时候,Google的前身已经在斯坦福大学的网络上运行了两年多。我在上,找到了一些更有趣的信息。Larry Page和Sergey Brin著名的论文,《》就是在这次大会上提交的,作为对PageRank技术最早的公开阐述,这个论文后来。不过,在这个网站上,我没能找到,包含Page和Brin的网页,倒是。还有我找到的资料:李彦红的超链接分析技术专利,提交时间是日,批准时间是日,链接:; PageRank专利,提交时间是日,批准时间是日链接 :。Google成立的时间是1998年,百度成立时间是2000年。 Google的服务器还放在学校的时候,由于太火爆曾把斯坦福网络拖垮了,这从侧面说明了Google的PageRank技术强于infoseek的超链接分析技术。(此时infoseek还有没有用超链接分析技术有待考证,反正当时Google是秒杀一切其它引擎就是了)小结:从专利提交时间上来说超链接分析技术专利比PageRank要早,说的似乎在理。但是,离开了时间谈强弱是没有意义的!打个比方,我会上知乎码字,孔圣人不会,我比圣人牛逼?非也。要比技术的话,要么比同一时间的,要么比同一发展阶段的,而这两个,百度并不占优。另:这段话有点问题:同一年,谷歌推出自己的搜索引擎,以精准广告为商业模式,成功解决了持续成长的问题,在搜索江湖的较量中熬到了最后。谷歌今日引以为荣的网页评级机制pagerank技术,直到2001年才被授予美国专利,比李彦宏的1996年申请的超链分析专利技术晚了5年。Google 2000年才开始出售广告的,而不是Google成立的同一年。维基:PageRank专利提交时间比超链接分析技术晚了不到一年,批准时间晚了一年多,君临拿李彦红超链接分析技术专利的提交时间跟Google PageRank批准时间比是不科学的。二.百度从一开始就和谷歌走上了不同的发展方向这段话我基本同意,但是这也并不能说明百度的技术比Google强,Google并非不能而是不愿提供mp3搜索之类的东西,要知道这个是侵权的啊。——金钱还是底线?Google选择了后者,多么有节操啊!而且,为了跟百度竞争,Google甚至自己购买了一些音乐的版权,并把它们放在网上供网友下载,正版高质量音乐啊!三.2009年后,百度推出框计算,2013年推出轻应用,在一站式生活搜索方面,是超过了谷歌的。谷歌2006就开始做OneBox(链接),而百度的框计算是2009年推出的(链接:)。时间上Google比百度早了三年,技术上,不是专业人员,无法具体分析。-----------UPDATE------------君临大大更新了,再驳之:追求网页精度的就是技术,追求更好答案内容匹配的就不是技术?想起了当年联想乐应用的传言,用客服MM们根据用户提交的录音手工转换成文字内容然后反馈到手机客户端,这个比Siri的技术更强?(未经证实,只是举例)谷歌在李开复时代就打不过百度,被墙的也只是一些敏感词内容,难道你天天就只搜索敏感词啊,市场上百分之99%的搜索需求都跟政治无关的好不好。看来君临大大很少用Google啊!!!!当年搜个“胡萝卜”都会被墙啊!!!!只因为那个“胡”跟圣上冲突了啊!!!!一墙就是10分钟不能用啊!!!!手机时代的划分。一代手机:模拟技术二代手机:数字技术三代手机:智能技术君临大大按这个逻辑得出百度跟Google是一个量级的结论,于是我得出了另一个结论:我深圳大山寨厂跟苹果是一个量级的,你看,不都是智能手机么?百度所发展的框计算技术,在我看来,恰恰是更适合搜索引擎行业的“智能”发展趋势的。我倒觉得Google Now才是最适合搜索引擎行业的“智能”发展趋势,你百度还要个框,人家Google直接帮你把事儿安排好了。update:君临大大再次更新,再驳:很多人认为百度的搜索答案都只是人工干预的结果,没有技术含量,我感到很遗憾。或许早年是如此,但是现在应该已经有很大的改进了。我举个例子。前面的谢霆锋的身高的问题,为什么百度能够给我答案,谷歌给不了呢?百度该不会无聊到这么细节的问题都专门去优化一下答案吧,当然不是了,这些答案都是依托于百科里用户自行编写的答案,百度不过是把他们的知识有机的整合起来,通过程序的设计,巧妙的呈现到你的面前。用君临的例子,同的样问题,张柏芝儿子的爸爸,有结果,把“爸爸”换成“爷爷”就没结果了:换成“谢霆锋的爸爸”又有结果了,整合乎?人工乎?---------------------------上面是反对,下面是看法,中间是分割线--------------------------到底谁技术更强呢,我们来模拟一下日常使用场景:1.娱乐类的,最喜欢李安了,想了解一下:Google右边给出了简介,他的作品,其它用户的搜索推荐。简单的了解,扫一眼简介,想了解他的作品,点击他的电影后是这样的:又漂亮,又利于获取信息,有木有?正文链接,除了第二个都是相关新闻外,Google给出前三的答案分别为:维基、豆瓣、Mtime,百度的是:百度百科、知乎、百度贴吧,你觉得哪个消息源更可靠?小结:一般人在搜索李安时想得到什么样的答案?作为一位名导演,通常人们感兴趣的是:1.他本人的一些情况,2.他的作品,3.再延伸到他作品大概是什么样的。看看Google的,简介,看右边,作品,在右边下面的位置,详细情况:维基、豆瓣、Mtime。在国内,电影类的豆瓣和Mtime应该是相关度最高,资料最全面,质量最好的的网站吧?维基百科就不用多说了,准确、公正,比百度百科只强不差。想了解作品的用户呢?直接点作品,然后在页面上面出现了他所有的作品,你可以在一个页面内浏览它,又全面又方便。百度呢?光看搜索结果页,并不能了解他有哪些作品。再看具体结果:百度百科、相关新闻、知乎、百度贴吧、电影网、维基、百度视频、百度图片、豆瓣、追梦人李安(央视)、CNTV、百度知道,十二个结果,有五个是百度自家的,而且这样的排序,我想不出来背后的逻辑。下面有知友说『如果有百度百科作为这类承载为何不可』,事实上,很多Google的搜索的结果会指向百度的产品(百科、知道、贴吧),比方说同样作为娱乐人物的周杰伦,Google结果第二个就是百度贴吧(除去新闻那一个),而Mtime和豆瓣放到第二页去了,说明对于想了解周杰伦的用户而言,贴吧的权重更高,这也更符合事实,不是么?所以,我的结论是在这方面Google做得更好。2.有道题不会算,搜一下:两个都能达到目的,不过,Google的要漂亮一些,不是吗?小结:功能都没问题。百度的计算器默认未展开,想再次计算不太方便,界面采用类似IOS6的拟物化设计,跟整体风格不太搭配。Google的计算器默认展开,扁平化设计,风格跟网页统一。个人更喜欢Google。3.再来看汇率:都能达到目的,不过Google给出了汇率波动的折线图。(最好的搜索方法是在两个币种之间敲空格,根本不用打那么一堆的,例:“1美元 人民币”)小结:两者差不多,Google给出了汇率波动折线图,稍胜。3.路线搜索:百度似乎胜一筹,但是我们再看看具体内容,百度前三结果:携程(广告推广)、去哪儿(百度旗下)、百度地图,Google前三:去哪儿、携程、火车票网(火车时间表),在网页最下面显示了Google地图。再换一个短一点行程的:百度,第一个是去哪儿,第二个是百度地图。Google,第一个是地图,第二个是火车票网(火车时刻表)。规划行程最好的还是地图吧?,再来比较一下:Google默认展开最佳路线,路线相当详细,收费路段用红字标明,而且界面比百度漂亮,有没有?而且,最最最厉害的是,如果你在用Google Now,当你在google上搜索过行程后,无需任何设置,到了时间,Google Now会自动提示你,第一次使用的时候,我那个惊喜啊。。。。小结:百度是能满足需求的,框内应用质量也非常高,只是我觉得百度有推自家产品之嫌。再来看Google,我举了两个例子,一个长途,一个短途,从广州到上海,很少人开车去吧?最常见的交通方式应该是飞机和火车,所以Google优先放的是这两个。地图放最下面,说明它的权重不够(哪怕是自家产品),还可以满足部分想驾车的用户。短途,东莞到深圳,驾车的就多了吧?所以Google把地图放在第一位了。我觉得这说明Google理解了搜索背后的那个用户。而且如果你开通了Google Now的话,那百度跟Google的差距就大了。个人觉得两个都不错,相对而言,百度可能更适合国人的味口,毕竟,对于旅行来说,去哪儿和携程是个不错的选择。但是我觉得谷歌更理解搜索背后的思维。所以技术上来说还是Google更胜一筹,如果加上Google Now的话,Google可以直接甩掉百度了。(国内没开通Google Now,不过可以通过某些方法达到,需要的请自行Google^_^)4.刚需,看片:百度是生怕你找不到,Google是生怕你找到了,百度让人“心神不宁”,Google让人火冒三丈。当然对于成人而言,这些都没问题,但是,如果是你未成年的子女在用呢?Google默认开启了安全搜索,在你搜索某些内容时会过滤。小结:
看片要种还是找度娘吧。5.图片搜索:印象中这个功能是Google先推出的这个功能,其实两都都不算太强。百度提供了“文件格式(常见的图片格式都有了)、尺寸、分辨率、是否收费”四个筛选器。Google提供了大小(分辨率)、颜色、类型(脸部特写相片、剪贴画、素描画、动画)、时间这四个筛选器。(日多了版权这个筛选器)Google更丰富,百度更符合国人习惯。以图找图:印象中这个功能是Google先推出的。Google提供了拖动找图的功能,百度没有。再看结果:百度识别为周杰伦,Google识别为魔杰座。(另:一次复制链接找图,百度无结果&下面的推荐中出现了一堆让人心神不灵的图片&,Google准确识别,本想截图的,忘记链接了未能再现。)小结:百度更符合国人习惯,经常找素材的设计师应该会喜欢。Google提供了颜色分类,人个觉得更有技术含量一点。以图找图,Google更方便,结果也比百度稍准(这里可能会有不同看法,显示周杰伦好还是周杰伦的魔杰座好,个人偏向后者)。还有一些其它的,我就不一一比较了,再分享一些Google实用技巧,这些掌握了才算是真正的会用Google啊:(转自知乎,链接:)如何用好 Google 搜索引擎? 崔凯,搬砖工。求工作!搜索引擎命令大全!1、双引号把搜索词放在双引号中,代表完全匹配搜索,也就是说搜索结果返回的页面包含双引号中出现的所有的词,连顺序也必须完全匹配。bd和Google 都支持这个指令。例如搜索: “seo方法图片”2、减号减号代表搜索不包含减号后面的词的页面。使用这个指令时减号前面必须是空格,减号后面没有空格,紧跟着需要排除的词。Google 和bd都支持这个指令。例如:搜索 -引擎返回的则是包含“搜索”这个词,却不包含“引擎”这个词的结果3、星号星号*是常用的通配符,也可以用在搜索中。百度不支持*号搜索指令。比如在Google 中搜索:搜索*擎其中的*号代表任何文字。返回的结果就不仅包含“搜索引擎”,还包含了“搜索收擎”,“搜索巨擎”等内容。4、inurlinurl: 指令用于搜索查询词出现在url 中的页面。bd和Google 都支持inurl 指令。inurl 指令支持中文和英文。比如搜索:inurl:搜索引擎优化返回的结果都是网址url 中包含“搜索引擎优化”的页面。由于关键词出现在url 中对排名有一定影响,使用inurl:搜索可以更准确地找到竞争对手。5、inanchorinanchor:指令返回的结果是导入链接锚文字中包含搜索词的页面。百度不支持inanchor。比如在Google 搜索 :inanchor:点击这里返回的结果页面本身并不一定包含“点击这里”这四个字,而是指向这些页面的链接锚文字中出现了“点击这里”这四个字。可以用来找到某个关键词的竞争对收,而且这些竞争对手往往是做过SEO 的。研究竞争对手页面有哪些外部链接,就可以找到很多链接资源。6、intitleintitle: 指令返回的是页面title 中包含关键词的页面。Google 和bd都支持intitle 指令。使用intitle 指令找到的文件是更准确的竞争页面。如果关键词只出现在页面可见文字中,而没有出现在title 中,大部分情况是并没有针对关键词进行优化,所以也不是有力的竞争对手。7、allintitleallintitle:搜索返回的是页面标题中包含多组关键词的文件。例如 :allintitle:SEO 搜索引擎优化就相当于:intitle:SEO intitle:搜索引擎优化返回的是标题中中既包含“SEO”,也包含“搜索引擎优化”的页面8、allinurl与allintitle: 类似。allinurl:SEO 搜索引擎优化就相当于 :inurl:SEO inurl:搜索引擎优化9、filetype用于搜索特定文件格式。Google 和bd都支持filetype 指令。比如搜索filetype:pdf SEO返回的就是包含SEO 这个关键词的所有pdf 文件。10、sitesite:是SEO 最熟悉的高级搜索指令,用来搜索某个域名下的所有文件。11、linkdomainlinkdomain:指令只适用于雅虎,返回的是某个域名的反向链接。雅虎的反向链接数据还比较准确,是SEO 人员研究竞争对手外部链接情况的重要工具之一。比如搜索linkdomain: -site:得到的就是点石网站的外部链接,因为-site: 已经排除了点石本身的页面,也就是内部链接,剩下的就都是外部链接了。12、relatedrelated:指令只适用于Google,返回的结果是与某个网站有关联的页面。比如搜索related:我们就可以得到Google 所认为的与点石网站有关联的其他页面。 这种关联到底指的是什么,Google 并没有明确说明,一般认为指的是有共同外部链接的网站。上面介绍的这几个高级搜索指令,单独使用可以找到不少资源,或者可以更精确地定位竞争对手。把这些指令混合起来使用则更强大。inurl:gov 减肥返回的就是url 中包含gov,页面中有“减肥”这个词的页面。很多SEO 人员认为GVM和学校网站有比较高的权重,找到相关的GVM和学校网站,就找到了最好的链接资源。下面这个指令返回的是来自.,也就是学校域名上的包含“交换链接”这个词的页面:inurl:. 交换链接从中SEO 人员可以找到愿意交换链接的学校网站。或者使用一个更精确的搜索:inurl:. intitle:交换链接返回的则是来自 域名,标题中包含“交换链接”这四个字的页面,返回的结果大部分应该是愿意交换链接的学校网站。再比如下面这个指令:inurl:*register返回的结果是在. 域名上,url 中包含“forum”以及“register”这两个单词的页面,也就是学校论坛的注册页面。找到这些论坛,也就找到了能在高权重域名上留下签名的很多机会。下面这个指令返回的是页面与减肥有关,url 中包含links 这个单词的页面:减肥 inurl:links很多站长把交换链接页面命名为links.html 等,所以这个指令返回的就是与减肥主题相关的交换链接页面。下面这个指令返回的是url 中包含 以及links 的页面,也就是GVM域名上的交换链接页面:+links最后一个例子,在雅虎搜索这个指令:linkdomain: -linkdomain:返回的是链接到点石网站,却没有链接到我的博客的网站。使用这个指令可以找到很多连向你的竞争对手或其他同行业网站,却没连向你的网站的页面,这些网站是最好的链接资源。高级搜索指令组合使用变化多端,功能强大。一个合格的SEO必须熟练掌握这几个常用指令的意义及组合方法,才能更有效率地找到更多竞争对手和链接资源。找外链的时候你可以用这几种命令组合,例如site:.com inurl:blog “post a comment” -”comments closed” -”you must be logged in” “输入你的关键词“,site:.com 是 指, 只显示.com的网站。 如果你想要 org的链接,就换成 site:.org,inurl:blog 是指博客。“post a comment” -”comments closed” -”you must be logged in” 是指, “能够写评论的” 减去“ 关闭评论的” 再减去“ 必须要登录才能写评论的”。总结:搜索技术上,我觉得Google是领先的,如果你肯花点时间学习一下,Google能给你的肯定会更多更好。(搜索跟使用的关键词有关,或者说跟用户有关,如果你找不到你想要的结果,请考虑一下是不是关键词使用不当?百度是够用的,由于人工调整和资源整合的缘故,它可能在某些方面更符合国内用户习惯(比方说看片这个宅男刚需,还有快递查询之类的合作)。Google的结果更公正,百度明显偏向自家的产品,但因为这些产品(百度知道、贴吧、音乐等)占据了很大的市场份额,跟国内公司的合作也比较深入,导致就算这样结果也还算理想,造成“百度更懂中文”的假像(这句话应该改成“百度更懂中国人”才对啊)。搜索只是个工具而已,在某种意义上,够用的就是好的,但是我相信把两者结合起来用才会发挥“搜索”的最大威力。
,买书不看爱好者
仅从搜索结果质量的角度做一个对比。百度与
的眼球跟踪(Eye Tracking)对比图(07年,来源: ): 的结果体现了较好的「黄金三角」特征,很可能是因为用户在前几个搜索结果中就找到了要找的链接。而百度的结果较分散,很可能是因为用户不满意前几个搜索结果,继续向下浏览。
,不让删号重练,至少要能洗点吧
不是一个量级。Google的准确率真不是盖的,一般不用滚动页面即可看到所需的结果。而百度,排在前面的时常是些不明所以的页面。非中文的搜索就更不用说了。个人感觉,百度的优势在于对诸如”百度知道“”百度贴吧“之类的信息渠道有更好的掌控。拜中国庞大的网民基数所赐,很多需要搜索的问题都已经有人问过,这样即使用户输入的关键词很”搜索引擎不友好“,也能通过简单的模型得到比较正确的结果。举个例子,同样是搜索”章鱼和八爪鱼是不是一个东西“(不要吐槽这个查询,这个是我同学刚刚去搜的orz...),百度的前三条结果是:而Google的前三条结果是:可以看出,百度只是将用户查询进行了简单的分词、停用词剔除等操作,然后基于出现的字词去查询结果;而Google对于查询语句明显有一定语义理解。从中可以管窥两公司的技术差异。13年暑期与某个前百度搜索部门员工共事,谈及离开百度的原因,他说百度的很多所谓”核心技术“只不过是将已经发表多年的论文算法实现一下而已,永远在追赶别人,没意思,所以出国读博。
知乎用户,IT专业
update =========说google强没人否认,但是个别指标百度并不弱。而且百度走的是完全不同的路,既引导用户贡献有价值的内容,比如百度知道,文库,贴吧,百科,还有框计算引入第三方贡献的内容。google强调的是作为工具的中立公正和高效。发展思路不同而已,说baidu技术一无是处的也没有什么有说服力的证据。仅仅是因为baidu人为干扰排序结果就完全否定baidu的技术吗?恐怕太片面了吧。============================================看不到任何有实际内容的答案。我不是业内人士,但据我有限的知识和观察。百度对于非中文的搜索,排序比起google几乎毫无战斗力。对于中文,百度并不弱于google。就分词来说百度还略强于google。这也不奇怪,中文收索和英文区别不是一星半点。只是google得益于强大的研发实力,现在已经几乎平手。google强大的是在维护收索结果的公平公正方面的技术实力,包括网页相关性,去除排名干扰(反作弊)。百度这方面差距较大。最后差距更大的其实不是技术层面。google的理念是“让使用者找到自己想找的”;百度是“让使用者看到百度想让他看的”。
题主问的是技术,那么我就说说技术上的事情吧,因为恰好我毕业论文做的就是搜索引擎:简单说一下历史:其实两家公司可以算是同时起步的,Google稍早一些,PageRank概念是Google最早提出来的,百度虽然晚了几年,但百度的那一套东西,最早用的是北大的天网搜索的技术,我记得北大还写了一本书,不过早就绝版了,书里讨论的就是中文搜索的基本思路。如果讨论技术对比,那么前提是只看中文搜索,因为百度的非中文搜索太烂了,并且收录的非中文网页也实在太少。另外,百度的非中文搜索也不是完全没有,比如这个(百度日语搜索,国内可能打不开):搜索引擎的主要技术指标包括:1、准确度和排序。2、收录速度。3、收录网页总规模。注:这里没有提搜索速度,是以为商业搜索引擎基本上都能在一秒内完成搜索,而一般网页页面打开也需要接近一秒的时间,所以一般来说搜索速度不是重点的技术指标。然后说说搜索引擎技术的基本原理:网页搜索引擎跟大多数人的理解不同,不是说用户来了请求就到数亿的网页里搜索结果,这样做太慢了,并且超级计算机做起来都很困难。举个简单的例子,有以下几个网页:A网页内容:中国大学的就业率与高考考试成绩不成正比。B网页内容:大学考试很简单。C网页内容:高考录取率很高,上了重点高中就等于上了大学。当搜索引擎收录网页的时候,会拆出网页的关键词,比如:大学出现在:A/B/C页面高考出现在:A/C页面考试出现在:A/B页面那么当有人搜索“高考考试”的时候,只需要求一下两个关键字结果集合的交集(即相同的部分),就可以得到结果了。用数学表示就是:{A, C} ∩ {A, B} = {A}所以搜索引擎是在收录网页时就完成了预处理,实际搜索的过程中不是去数亿的页面里去直接搜索。搜索引擎简单的结构是(只能说简单的说是这样的):爬虫系统(收录网页)==&预处理系统(过滤干扰字符)==&分词系统(建立索引)==&网页数据库==&用户搜索处理===================罗嗦了半天,现在开始看技术比较===================1、准确度和排序:之前的回答有各种各样的比较,但是这里回答问题的人大多数都是技术行业、互联网行业相关的,普通用户搜索的东西与我们会是一样的吗?看看这里:,看看大多数中国人在关心什么。因为大多数拉丁文字都是自动成词的,但汉字不是。比如下面的这个笑话:小心地滑可以拆成:小心地/滑 和 小心/地滑,这个例子不是用来证明Google的分词没做好,因为这不是搜索结果,我只是在这里强调一下分词是一件多么麻烦的事情。普通用户可能更多的搜索“从北京南站到首都机场”而不是“OSLOADER 符号表”这些。我也不否认技术类的东西百度搜的更准确,但中国几亿上网用户有多少是搞技术的?Google把“用户想要的东西”更多的局限于网页结果上,而百度则是把用户想要的东西直接展示给用户。比如“个税计算器”、“万年历”这些。肯定有人会说我耍赖,把百度应用/API这些东西也算搜索结果,但是我问一句:用户上网搜索就是只为网页吗?用户是要结果。在中文搜索方面,尤其是分词方面Google没有太大的优势,排序方面二者基本相当,但百度把一些关键词做了人为干预,实际上这种干预目前来看还是很成功的。所以在结果和排序上,中文搜索百度略微占优势。P.S 看某些评论里有人提到了美剧的搜索,如果名字是英文的,请用Google,如果名字是中文的,请用百度。2、收录速度,之前有人回答了百度比Google慢,这个我比较认同,大多数情况下Google收录的新东西更快。但Google有一个问题就是结果太少,虽然用户实际上不会看到几十页以后的结果,但是百度一般能给出将近100页的结果,Google只有十几页左右。另外,突发事件的时候百度人工干预的痕迹很明显,但Google则一般都是机器做的,这一点Google明显强于百度。3、网页规模,Google的总网页规模是百度的10倍左右(06年官方数据,百度12亿,Google82亿),网页规模越大,复杂度的增长不是线性的,并且Google搜索的时候,不管是中文还是英文,都是在同一个网页池里搜索的,这里既有中文,也有英文。早期(2005年左右)的时候我记得有论文说Google的搜索不是分布式的,而是集中式的,这一点无法考证,但现在应该早就不是集中式的了。找不到太精确的两家收录的总页面数,但可以确认的是Google完爆百度。网页规模扩大十倍,不是说服务器增加十倍就可以搞定的,因为服务器越多,负责调度的节点的负担就越重,对于磁盘I/O,网络带宽的使用都变大,而这些东西都是有上限的,不是说简单的翻倍就可以的。就技术来说百度也就是在中文分词和排序方面略强于Google,但其它方面还远远落后于Google,当然中文分词至今也没有谁能说自己做的最完美,因为毕竟中文实在是太复杂了——就比如前面的那个小心地滑。=========================暂时能想到的就这么多=========================我强调一下我的立场,去这里看看普通用户搜索什么,再来比较准确度的问题,每个人搜索行为都不一样,自己一个人不能代表全部上网用户。
,在下不生产酱油,只做酱油的搬运工
百度和谷歌单就搜索技术而言,二者从来就不是一个量级的。想知道两者谁的技术更牛逼,那么我们看一下二者谁掌握的专利技术多就可以了。Google有一个专利检索引擎,我们可以在里面找到自一九七几年到二零一一年之间的专利技术点击左侧这个链接可以进入专利检索页面。注:语法inassignee:""是限制公司名称。因为搜索引擎只是Google公司众多业务的一部分,同时近几年苹果以及Google公司的专利大战等因素导致Google公司的专利技术激增。所以我在搜索条件中分别加入关键词“搜索”以及英文“Search”,用以更加精确的去检索出关于“搜索”以及“Search”相关的专利技术。同时使用英文与汉语同时进行检索,我们可以看到2者之间的差距。===================下面是百度的专利===================不过,就像其他答案中提到的一样,鉴于Google现在在大陆的状态以及中英文之间的差距(分词技术),在日常生活中,百度还是用起来比较顺手的。但是,既然提问者问的是技术,这个答案比上面的多数答案更有说服力(得意的笑)
百度一直是站内搜索好么
,7年传统行业销售,决心转入移动互联网,…
我不懂搜索技术,我是来反驳@君临的。
首先,搜索引擎只是获取信息的一个工具,不必要回答问题的时候就上来给各位知友扣上“用谷歌用出优越感”的帽子吧?其次,题主问的是:就搜索技术而言,百度和gooogle是一个量级吗?这其中的比较主体是百度和google,比较的内容是搜索技术。
好了,现在开始逐条反驳。
1.李彦宏的搜索技术再牛逼,就必然百度的搜索牛逼吗?举个栗子:我们球队队长,职业球员退役,拉出来单练基本功和技术,秒我们几个友队的任何人。那又怎样?我们球队的成绩也只是中游偏上而已。再从我个人的使用上来说,在我开始做销售的时候,我需要大量有效的潜在客户信息,百度出来前两页几乎是竞价排名,google能精准地满足我的需求。
2.单独拉出来mp3,图片搜索,贴吧比较。贴吧是社交平台,正在这个问题下就不讨论了。图片搜索,百度比google牛?这个真没有,小米拍照作弊,墙纸大赛都是google图片搜索的功劳吧?再说mp3搜索,这个有点不公平了,原因大家都懂得。我们国家只能一夫一妻,某个国家一夫多妻,只有一个老婆的我被人说泡妞能力比不上娶了好几个老婆的某人,我不福气啊。
3.“谷歌追求的是最快找到你需要的网页,然后离开;百度追求的是在百度上找到你所需要的所有东西,然后留下来。”这是君临的原话,恰巧@和菜头刚刚在微信写过一篇文章“为什么我不去百度”,其中有关于搜索引擎价值的判断“百度是搜索引擎公司,搜索引擎的天生八字就是:拿了就跑。用户飞快地跑来,找到内容转身就走。一个搜索引擎公司越是成功,用户单次访问的时间也就应该越短---这意味着用户可以在最短时间内找到自己想要的内容,也就体现了公司的最大价值。”我个人很认同这样的判断方法。这不正说明google的搜索价值是大于百度吗?
反驳完结!扯个蛋:作为一名工具使用者,google让我更喜欢,我相信这背后是有强大的技术支撑。
另外,这是由MX2完成,很辛苦,求赞。
,俯察翘襟。
反驳 的回答。你为什么不提及这些结果?
知乎用户,大学僧
是百度知道、贴吧把百度的关键词准确率拉高了从搜索结果出发,看我举个例子
搜索:美国总统是谁?google结果:百度结果:百度告诉我是布什。。。。。结论:谷歌比百度强
有人说谷歌也推广,因为我自己没遇到过,就说谷歌不推广,抱歉啦...截个百度的搜索结果吧,搜索内容为360网盘,看看百度怎么干涉搜索结果的,我认为,即使再怎么斗争也不至于处处推广自己吧,声明一下,我个人不是360的粉。不是一个量级的,上边那些举搜索的例子都是不公允的,虽然能局部的说明问题,谷歌和百度真正拉开档次的学术搜索,无论是期刊还是代码,不公开的说个事实,谷歌搬到香港之后网页不稳定,对某些科研单位或者大学影响很大,有的学校会建立谷歌专线,速度快并且稳定。百度也许很赚钱,打开百度首页看看吧,百度杀毒?百度卫士?把百度设为主页?为了推广自己的产品降低用户体验,瞧一瞧谷歌的主页,什么时候强制推广了,无非就是跟360竞争么,作为一个“国际”大公司就这点风度?看一个公司是否强大看看它的竞争对手,百度的竞争对手,360算一个,搜狗也算,腾讯也勉强入围,也许这样做很赚钱,也许这样做能保护自己搜索“垄断”的地位,但是,百度永远不是一个伟大的公司,无论它推出的硬件产品(小度WiFi、小度路由和小度TV)还是其他软件产品(百度聊天,百度网购,百度理财,百度卫士,百度杀毒,百度播放器,百度操作系统,百度手机,百度...)基本都是失败的。PS:前边提到的谷歌专线恕不能公布,但是告诉大家个小窍门,谷歌的主页默认是跳转到香港的,即.hk,不稳定的情况经常有,不稳定的原因大家都懂得,可以把后缀改成.tw,看拼音就明白了吧,速度和稳定性都值得推荐!
,不装懂 / 坚定不移抵制网络用语
简要概括一下大家的思路:谁专利多谁就牛逼;谁框计算做得好看谁就牛逼;谁会算加减乘除谁就牛逼;谁能告诉我明星生日谁就牛逼;谁能搜IT开发相关的文章谁就牛逼;谁搜图搜得准谁就牛逼;。。。。。。360的周老板在GeekPark的演讲里说,“当时我的技术比Google屌,你们都不信吧。。。”所以,我觉得,不是业内人士,没做过搜索,可能连Lucene都没玩过,就开始在一个题目叫“就搜索技术而言,百度和谷歌 (Google) 是一个量级的吗?”的问题下互喷,实在是。。。对吧?完全可以把题目细分成:“就[中文/英文][生活类/技术类][用户体验/检索数目]而言,百度和谷歌 (Google) 是一个量级的吗?”
当年卖山寨机的时候,我也说Nokia和我们是一个量级的,都有一样多的按键和屏幕,我们有些地方,nokia都不如,比如我们的灯多,声音大。。。。
,Go bucks!
楼上某些人的截图很不负责任啊,你们比较应该是用它们最擅长的语言好不好?应该是百度的中文搜索比较谷歌的英文搜索,我现在举几个例子。你不要用香港谷歌,用美国谷歌试试。而且语法尽量符合美国人习惯首先是冬奥会的湖人队,这个看各位排版喜好了然后是油价换算,这个百度根本不行,然后看看美帝的油价然后是汇率地理,以日落时间为例位置搜索行程,都有飞机,都很贴心的说城市中餐馆搜索人物搜索,以兵库北为例,谷歌显然内容更丰富,排版更漂亮公司搜索,谷歌提供了当日股市行情知识覆盖与理解:这个真是中国特色然后是航班查询5s发布日期一款汽车查询动漫查询,百度给出了观看链接,非常人性化世界杯相关,显然百度和谷歌各有偏好空气质量指数,美国空气太好了,没人用的原因吗?问两地多远的问题生活查询,比如可口可乐的热卡科学计算外语翻译,百度还是很多语言没有收录,貌似只有几种,举个西班牙语的例子简单的单位换算看了这么多图,我认为,其实两家各有所长楼上各种喷子还是休息吧,我用谷歌只是觉得它更加美观而已。其实什么搜索技术最直接的表现不是在这些日常应用上面么?那些高精深的东西又有多少人会去用呢?鉴于国内网站含水量太高,我个人还是推荐谷歌的,毕竟在美国享受到了各种便利。
,一命二运三风水 四积阴德五读书
搜索引擎的量级你要考虑到以下二点覆盖区域 覆盖人数 谷歌的覆盖区域是全世界百度的覆盖区域主要是国内谷歌的覆盖人数是抛出中国 朝鲜等的所有能上网的人百度的覆盖人数是中国+部分海外华人好了请你告诉我单就技术而言 这两种规模下的搜索引擎会是一个量级么
,行而后知,一枚活在当下的IT民工。
两家公司的侧重点不同而已,我看过一个数据,但记不太清楚了,大概是百度80%以上的收入来自推广,谷歌只有20%;谷歌覆盖的面更广泛,所以在未来百度是否在其他地方和谷歌比肩,敬请期待;---------------------------------------------------------------------------------------------多谢评论几位的提醒,我后来在199IT中查了下,确实谷歌在2013年Q2的财报中有提到谷歌第三季度营收(广告及其他业务)为137.7亿美元,在总营收中所占比例为92%,比去年同期的115.3亿美元增长19%。原文就不做修改了,附上财报链接:-----------------------------------------------------------------------------------------------另外,我还是表达我自己的观点,百度在破坏更多中小型网站的利益,之前在知乎也和别人讨论过这个问题,百度开发如此的多的产品,无疑是想把用户留在百度页面上,看似很接地气,多方便我们的网友,而背后却是多家网站的竞争,被百度利用乖乖的贡献了自己的资源,最后百度一脚踢开自己玩;所以我的理解,百度:我的就是我的,你的你愿意也是我的,不愿意也迟早变成我的;什么,你是富二代,那我们可以合作的;谷歌:我有资源,我带着你们中小网站玩,只要你有区别于其他网站的内容,有钱大家一起赚;针对上面一点有异议的,每个人看法不同,不想再做讨论了;最后和
交流下,之所以百度有这么多的搜索结果展示样式,是因为百度在这上面有N多个部门,光我接触过的就有3.4个,每个部门涉及的种类不同,每个种类还有不同的样式,所以看就觉得太乱。
什么时候是一个量级过?
发表评论:
馆藏&51774
TA的推荐TA的最新馆藏[转]&[转]&}

我要回帖

更多关于 hadoop 使用 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信