百度搜索引擎排名算法新算法真能根绝伪原创么

百度算法更新历史记录_王德春(春哥)博客_网站seo,seo博客,网络营销,营销推广
春哥发话:欢迎兄弟来我博客,如果您访问的页面变形错位说明你浏览器版本过时了,请下载google浏览器或者360浏览器,我将会分享最新的网络营销技术、SEO黑帽与白帽技术、亲测网赚项目等
百度算法更新历史记录
,百度自动识别垃圾外链(评论、视频标题外链、垃圾博客外链、标签外链等)
百度排名顺序由原本的每礼拜调整1次排名,现在1天都有可能3-4次的排名调整。
百度进一步提高了自身平台权重,百度百科.百度地图.百度知道.百度贴吧等属于百度自己的产品。还有就是和百度自己合作的上网站权重也提高了。
百度对信息越真实的网站排名会给予更好的排名。公司性质的网站要比小我道质的网站排名更有优势对于一些垃圾站点,剽窃网站.模拟网站一律不给于排名。
百度对新站的收录时刻简短,从以前的半个月到一个月时间,简短到而今的一到两周。
新的站点,几乎不是多需要去注重外部链接数目及质量了,只需要你尽量做好站内内容的质量和经常更新即可。
百度网页的大更新是以前的星期三更新,更改为每一日更新。
网站有弹窗广告这样的站点,百度给以降权。
介入D联盟站点的给以恰当降权。
网站页面.站点里面有大量JS代码内容的给于适当降权处置赏罚。
导出的单向链接过多,给于降权处理针对链接的站点。
友情连接过多的站点,或者是不美观站点友情连接网站的,给于降权处理。
博客评论和论坛签名百度目前已经不给以外链权重。
对大型门户网站的外链权重有必然的增强,对门户网站的外链权重算法也做出了调整。
收录周期缩短,出录新站:收录已经从以前的一个月缩短到一周摆布的时间。
网站收录收录页面有所增添。
新站收录几乎不需要有什么外部链接,只要有内容就行了。
更新时间:天天更新是7-9点下调整为5-6点,晚上10-12点周三大更新,调整为每周四大概凌晨4点更新。每月大更新的时间是11号和26号,尤其是26号,更新幅度最大,K站也是最多的。企业站内容较少的话,建议每周四前更新一下内容,内容多的话,最好是天天更新3篇。
百度进一步对自己产品关键词排名次序加强,百度自己的产品主要有百度知道.贴吧.百科等。
百度赋予了自己合作伙伴很好的关键词排名。
百度排名次序调整后周期缩短,原来一个星期进行一次排名,目下当今是一天三四次的排名按次调整。
百度对于分歧地域.不同城市.不同收集排名位置也有所转变,例如湖南与广东长沙与深圳电信与网通等排名位置都纷歧样。
公司网站排名较之个人网站排名有优先权。这可能是百度对清理网站低俗内容专项的一种行动,又或者是百度对个人站不安心的缘故所致&!
百度认为是垃圾站的排名也欠好。因为有个体网站为了省时.省事.省心,就使用了不异的模板,功效百度调整之后,百度流量就根基上缺失,以至于有些站基本上就没有什么流量。
权重高网站要比权重低的网站好良多。对于权重高的网站,在此次调整中不单没有泛起关键词排名降低,相反获得了晋升。这可能就是站长日精于勤的缘故吧。
百度对搜素引擎的人工干与进一步加强:如你的网站环节词排名很高,而内容简单,无更新。虽然从百度获得的流量很大,假如百度就有可能经由过程人工干预干与,给你网站关键词降权甚至百度收录中剔除去。
百度把新站收录审核时间变短,呈现2-3天内就可以收录。百度为了搜索成效加倍切确,引用了文章**现的日期,不外没有进行当天日期的对照处理。对比来一天收录后果禁绝确。天首页快照,网站能有当天的首页快照,当天快照,原来只有谷歌才有,百度改良算法中在进修谷歌的。
百度调整了对站点一再的SPM内容站点降权。百度对于网站的原创性要求更高,条理品级很较着的得到了改善。在自己的网站上揭晓文章,但文章问题百度更新收录规则和内容一定要百度下搜索不到的,然后在去各大论坛投稿一样的。过一会再去百度下搜索看,只如果原创的基本上能排在第一位。还有一些网络营销专业人士认为,百度算法调整后,对新站的亲爱水平比原来有所加强。
对门户站的权重比较垂青,这是算法调整最直接得默认。追踪一些关键词可以看到的一个普遍现象:排名前两名大部门依然是自力站点,从第三名起都是门户页面,直到第二页起头恢复独立站。
百度针对论坛和博客站点导入链接降权,论坛签名已经对百度失效.百度重点提升了自身产品百科.贴吧.知道.辞书.有啊.经验.文库等相关内容页面的权重,现在百度这些产品的内容在第一页都有浮现,非凡是百度百科和百度文库。
[3月6日]为了满足百度用户的时效性需求,让用户更加方便快速地找到所求,百度网页搜索结果中目前已上线内容发布时间,替代之前的快照时间。将网页内容的产生时间更精准的告知用户,降低用户选择成本,提升点击效率,同时也能够提升网站的转化率。注意:对于搜索结果页、列表页、广告页这类页面,搜索结果中将暂时不展示发布时间。
1.对买**链接进行了严厉的处罚,对导出链接超过40个(一些知名站点不受影响)的网站,如链接工厂、垃圾站、半年以内的站所导出的链接全部没有权重,对于不相关友链全部降权十分之一左右。
2.增加了对隐藏链接的识别,现在网站上的那些隐藏链接一律没有权重了。
3.针对购买GVM、教育机构、事业单位链接的行为进行了严厉打击,百度已经建设了GVM、教育机构、事业单位数据库,对此类网站给予专门的排名,同时此类网站导出的链接一律不给与权重。
4.对于针对百度产品进行优化的行为进行打击,百度产品所导出的外链一律没有权重。
5.百度对在友链平台**友链的网站所导出链接全部不给予权重,百度已经建设了一个友链平台的特征库,比如在chinaz通过了的网站,阿里微微的网站,阿里微微自动挂链的网站,百度的系统都能自动监控到,发现了以后将这些网站加入**链接的网站数据库,这个数据库内的网站导出的链接都是没有用的。
6.百度实现了对论坛发帖和回帖用户的识别,被系统认为是垃圾贴和垃圾回复的(百度根据一些自动顶贴机的顶贴原理和一些万能回复(就是很常见的回复)搞了一个特征库,符合这个特征的就会被认为是垃圾链接内容)不给予权重,非原创(识别原理和识别原创文章的原理一样)的回复,同一用户重复发表的同样内容的帖子或回复不给予权重。
7.百度会对国外空间和未备案网站加大检查力度。
8.百度又根据了常见的采集软件的伪原创方法增强了检查伪原创的算法,像打乱段落,关键词替换,截取一部分等方法百度现在都能检测到,百度会针对网站伪原创和垃圾内容所占内容的比例进行处理(具体数额我不知道)而且会把伪原创的内容全部剔除。
9.百度对采集的内容收录有一个数量限制(具体不知,但是大站没有影响),达到数量以后就不收录了。
10.百度对导出链接基本没有但导入链接很多的网站加入疑似购买链接的数据库,进行重点监控和人工排查,对于该网站的导入链接加入疑似**链接的数据库进行监控和排查。
11.百度降低了外链对网站排名的影响,但降到了多大不知道。
12.百度对长时间原创的网站给予高权重。
13.百度分享的权重大大减少(很有可能直接没了),因为刷百度分享的太多,百度没有一个有效的解决方法,所以百度分享权重被大大减少,不过等到百度有了一个好的防作弊方法以后,百度分享权重一定很大。
14.仅对高质量博文给予高权重。
ps:高质量认定标准:字数,原创性,非垃圾内容,评论量(同用户多次发布评论现在百度已经能识别了)。
15.除高质量博文导出链接外,其他全部不给予权重。
16.对于堆积字符,词语等所生成无意义内容百度已经能识别,百度会认为这些内容是垃圾内容,进行惩罚。
17.一些在知名网站发外链的方法已经失效(比如通过书签等等)。
18.百度将以上不给予权重的外链行为,视为作弊行为,百度会将这些外链加入到以疑似作弊网站数据库,进行重点监控和人工排查。
「12月5日」百度将从12月中旬开始,逐步淘汰&不具备唯一价值&的pc页鼓励站长建设移动化资源,以优化移动用户搜索体验。这就意味着以后在手机上用百度搜索大量的PC页面将消失,取而代之的是移动版的页面。
「9月6日」百度将严厉处罚不相关的静态搜索结果针对一部分网站利用热门热门关键词生成大量的站内搜索结果页来获取搜索引擎流量,其中存在大量的不相关内容严重损害了搜索引擎的用户体验,并且侵占了相应领域的优质网站收益。对于此类网站百度将做出严厉的处理。
「8月29日」百度说不存在所谓的大规模&k站&百度在官方论坛发布声明:1.并不存在所谓大规模&k站&,请站长朋友们安心;2.Site语法查询为估算值,精确度有限,请站长以百度站长平台索引量工具的数据为准。
「7月27日」百度突然减少大量网站收录与外链据博友观察,卢松松博客从昨天的5350掉到5310,今天直接掉到4670,形势严峻。后来我查了下SEO数据风向标,发现今天的百度的数据风向标全部下滑。从图中可以看出,百度的收录、反链几乎全线下降
「7月20日」出售二级域名或目录用于作弊将株连整站这次是点名道姓了太原新闻网,它出售了二级目录,并用于淘宝客导购行为。如果这些行业站站长还不注意的话,要么就被K站,要么就直接清理出新闻源。
「7月05日」百度绿萝算法2.0更新打击明显推广的软文,百度将加大过滤软文外链的力度,对长期发软文的目标站点进行惩罚,和对这些发软文的平台(网站)进行惩罚,两方面双管齐下,这将直接影响到软文代发行业和一些门户站编辑。
「5月17日」百度石榴算法上线本次算法主要针对弹出大量低质弹窗广告,混淆页面主体内容的垃圾广告页面为代表。这类行业站要注意了:大量低质弹窗广告主要居中在游戏站、娱乐站、电影站、医疗行业等网站上,而广告与内容混淆主要集中在下载站上。含有恶劣弹窗、大量混淆页面主体内容等垃圾广告的页面排序会大幅下降。
「5月17日」百度发布&起源&算法百度已经抽调大量人员组成原创项目组,致力构建原创环境,推动中文互联网的前进。同时,百度披露了原创识别系统-&起源&算法的部分细节。
「5月15日」百度星火计划上线百度建立了一个&原创联盟&,这个联盟的作用不仅仅是展现新闻媒体,另外也可能会签署某些协议来人工提示那些是原创文章,以避免出现文章版权纷争。
「5月13日」百度异常提醒工具即将上线超链作弊,内容作弊、内容采集、网站被黑、网站被拔毛或是竞争对手恶意做的&垃圾外链&,都会收到通知。旨在帮助站长意识到哪些行为不是网站正常运营的手段,从而帮助站长及时的纠正运营问题,避免网站因作弊行为而被搜索引擎惩罚。
「2月19日」这一次百度算法终于有了名字!百度绿萝算法上线三个类型网站将会受到不同程度的影响:1、超链中介,2、出卖链接的网站,3、购买链接的网站。
「11月05日」打击交易平台的买卖链接行为国内有几家知名度非常高的链接买卖站,例如站长交易、阿里微微等,都已成为百度监控对象,并形成一套相对网站的数据库,而且也注册了一系列潜伏的帐号来判断那些网站是链接买卖的活跃帐号,通过人工+技术的方式进行判断。
「10月23日」百度打击超链作弊的算法升级主要对象为意图通过超链作弊的方式操纵网站在百度搜索结果中排名的行为。
「8月22日」百度预警:打击采集作弊网站在站长的反击声中,百度方面做出了让步,这是第一次网页更新时,通知了广大站长!
「7月2日」【里程碑】6.22和6.28百度K站事件针对百度大规模K站事件引起了站长的公愤,反百度联盟在各大站长类论坛呼声渐高,百度竞价恶意点击凤巢正在启动。数10万草根站长发起恶意点击百度竞价行为。正因此事件,迫使百度首次回应K站问题,也使大部分网站的收录量恢复提升,同时促使了百度在未来的每次大更新时都会发布公告。
「5月25日」百度惩罚发布的低质新闻的网站如果发现新闻站点为了获取商业利益过度SEO/发布商业广告/恶意导流/堆砌关键词等,伤害普通用户的搜索体验,影响新闻产品专业权威形象的,百度会将其视为低质新闻站。
「5月2日」百度发布Web2.0反垃圾攻略 为了扼制Web2.0页面越来越严重的垃圾信息、群发信息,以及不断蔓延的在Web2.0页面做外链、做SEO的趋势,百度站长平台发布了Web2.0反垃圾详细攻略。
「4月28日」百度进行大规模的算法升级和改版百度搜索失灵问题还上了CCTV4新闻
「4月11日」百度调整移动搜索排序算法鼓励网站运营者与站长进行手机页的优化,同时新规则还将提升手机APP的排名。
「9月16日」百度站长平台开放 里程碑的事件,标志着百度对待站长的态度越来越开放!
「8月27日」百度发布SEO优化指南 这份《百度搜索引擎优化指南2.0》对从事网站SEO的朋友有很好的指导意义。
「5月20日」百度大更新 官方(LEE)首次回复与更新有关问题:我们的系统在更新数据的过程中出了点状况,问题被及时发现后,已经于5月20日中午修复,目前还有部分内容由于缓存等原因正在更新中,很快就会恢复正常。
&李彦宏对自己的超链理论也通过论文著作逐步解析和完善,先后在IEEE(美国电气与电子工程师协会)刊物上发表,并不断在互联网搜索领域研究新的解决方案,随后李彦宏的新技术发明又申请了数项专利。
1997年李彦宏在美国申请了专利&&&超链分析技术&(Hypertext document retrieval system and method,专利号5,920,859)。超链分析技术的发明,一改互联网搜索杂乱无章、信息冗余的局面,使搜索效果大幅提升。后使用快捷导航没有帐号?
百度引擎新算法真能根绝伪原创么
& && & 百度引擎往年年夜行动一向,前些糊口复旧算法,号称关于低品质的伪原创遏制了管教,此外乎有SEOer就说当前没法做伪原创了,现实上真的是那样吗?低品质的伪原创或者许能够搞定,然而那种形式下的伪原创我置信度娘现正在是搞没有定的,因为伪原创仍然有相等大的生涯余地。
& & 咱们先来看看伪原创一般有哪若干好多种次要形式:1、同义词交流;2、打乱作品顺序递次;3、拔出额定文字或者图片。正常来说伪原创脱离没有了这三种形式,没有管是人造的仍是挨次施行的。
& & 那干什么说度娘现正在还无奈彻底搞定伪原创呢?有几何个规模。
& & 第一是因为做作言语系的简单性:百度boss Lee本人都否认OCR是面前电脑建筑界的一浩劫点,就是由于OCR进去的文本,只能遵照光学近似度截止识别,无奈依照做作言语的法例截至自动前期解决,由于做作言语的轨则实在过分简单了。自己都晓得微软的word有听写审查机能,正在你写一段作品的时分会对于形式的听写休止审查,有时分这种审查照旧很无效的,然而假如你没有彻底依照白话的写法来写,搀杂少量的书面语的话,某个听写审查性能就只无能瞠目了,你会觉察作品里有大段的听写成就。某个成绩是到眼前为止电脑建筑界仍然无奈措置的一度成绩,咱们还能够用意译器来中止一下类比:意译器有文法审查,但那可是瞄准于大都关头字和既定语法的状况下终了的审查,这种审查需求婚配的形式与做作言语对比几许乎是少到了姥姥家了,现实上做作言语的解决就相等于一套做作言语系的划定下的文法审查,遗憾某个考题太甚宏壮了,眼前还没有一度可以绝对于比拟好的处置赏罚的体例,即即是关于绝对于轻易的西文语系都是如斯,更没有要提比西文简单受骗然倍的中文了。假如真有人能处理某个成绩,他相对于能够拿到今年的弹药奖,正在电脑史上容留本人的名字。电脑收集上眼前的形式照样要靠人来填充,假如某个成绩失踪去向理,电脑就能够本人写课文了,形式的填充就彻底脱离了人的行止,这时分上网络形式的空虚也就没人什么事了。
& & 第二是由于网络上的形式充溢了各族搅扰:即就是形式自己抄,资阳招聘网 www.zyzhaopin.com dlwedc。因为每个网站所运用的页面机关和代码必然相反,正在注释初步前的文字形式也经常没有会彻底相反,更况且决心终止的伪原创,这象征着蛛蛛抓取到的形式里充溢了各族搅扰性的要素,代码自身的搅扰是比拟简单扫除的,很容易的正则就能够消弭,然而消弭掉代码当前的文本形式的搅扰就没有是那样简单搞定了,说辞正如第一条之中所说的。
& & 其三是百度的算法自身也然则一套按次,它没有是野生智能,第一条带来的难问题前想来未来只要野生智能琐细能够处理,然而野生智能细碎的演算开支没有晓得有没有人想过,关于SEO搜索引擎络上每日发生的天量数据,我置信即便能实现那样的野生智能零碎,百度眼前也没有阿谁演算威力,就算它用上N
& & 的那套筹算地舆学数据的递次都一定能搞定,因为它只能退而求其次,依托圈定少量的范式来住手婚配,但这外面的异样具有演算开支与施行成效之间的冲突,因为某个范式没有能够圈定全副,现实上以中文的立场来说,它也做没有到圈定全副,因为百度的算法只能是靠该署一定的范式实现,那样就具有钻漏斗的能够。
& & 综上所述,百度的新算法或者许增多了婚配的范式,该署范式关于素质比拟顽劣的伪原创,例如拔出有意思的字词之类,概略还是无下场的,但真想彻底根绝伪原创,它还真没有某个手艺威力,别说它了,连号称妙技流的前都做没有到,没有过貌似素来没有为伪原创费心,它的收录规范比百度宽松多了。基于某个说辞,只需没有做品质优良的伪原创,花上一些功力来做的话,度娘的这套算法是没有方法的。
& & 集体高见,一家之言,欢送拍砖。
网站备案/许可证号:鲁B2-&&增值电信许可:鲁B2-&&Powered by7*24小时咨询电话
栏目导航NEWS CENTER
相关资讯Related information
最新加盟NEWS
CENTER您当前位置: >>
>> 浏览文章
此次百度更新新的算法,对seo的影响照旧不小的.&内容为王,外链为皇&的理论已经根深蒂固.信赖许多的网站或多或少都有购买过链接的操作,通过购买链接的体例,网站也取得了不错的排名.新算法的重点在于袭击购买链接,这就意味着以后购买链接的路走不通了.外链在计算网站排名的因素中的地位将被降低.此次算法更新,许多的站长都慌了,作为站长的我们究竟该如何应对这次动荡呢?
站长应该采取淡定的应对心态......
淡定应对百度新算法扎实做站才是出路
此次百度更新新的算法,对的影响照旧不小的.&内容为王,外链为皇&的理论已经根深蒂固.信赖许多的网站或多或少都有购买过链接的操作,通过购买链接的体例,网站也取得了不错的排名.新算法的重点在于袭击购买链接,这就意味着以后购买链接的路走不通了.外链在计算的因素中的地位将被降低.此次算法更新,许多的站长都慌了,作为站长的我们究竟该如何应对这次动荡呢?
站长应该采取淡定的应对心态
虽然此次算法更新,对于许多的网站来说都有肯定的影响.许多的网站因此排名下滑,但搜索引擎不是我们站长所能左右的.我们能做的就是根据搜索引擎转变而转变.淡定的心态才有助于我们想到解决的办法.
理性看待任何事情都有两面性新的算法推出,可谓是几家欢喜几家忧,欢喜的是那些费力发布优质原创文章的站长,原创类型网站春天已经到来.百度也公开表态,将重点提拔优质原创内容.对于那些伪原创,靠购买外链来提拔网站权重从而获得排名的网站来说,这次袭击是不小的.发布垃圾文章内容,采取其他的体例来获得排名的效果就是我们在搜索引擎搜素相干内容时,真正对于我们有帮助的东西在不起眼的角落.信赖我们都有过如许的经历,有的时候想在搜索引擎找一些相干的资料,排在前面的对于我们帮助不大,必须今后翻几页才可以找到,这时候你的心情一定极度的忧郁吧?其实这也不能完全怪搜索引擎,假如没有伪原创或者其他的垃圾内容,那效果将完全不一样.所以我们应该采取辩证的方法来看待此次算法更新,只有坚持好网站原创内容,不仅对于网站的发展有利,大家都按照如许的方法做站,那么得利的将是所有的人.
算法更新的精髓得到升华
小我认为的精髓在于&以人为本,用户至上&.我们做seo的目地就是为了吸引用户通过搜索引擎访问本身的网站.当用户点击本身的网站后,真正能留住他们就只剩下网站内容了.假如一个网站悉数是
垃圾内容,就算是用户访问了本身的网站,也逃走不了被秒关的命运,更不可能通过你的网站介绍而去购买产品或者点击你网站上的广告.长期发展,搜索引擎一定会对你的网站进行降权,既然用户都不喜好你了,那把你放在前面有什么用呢?在这里不得不提的是,一个网站的Pv值以及回头率对于网站排名来说也是一个紧张的因素.此次更新的另一个要点就是剔除垃圾内容,给予优质内容高权重.这也体了
seo的精髓.
不要过分在意小变动做好本身
seo其实就是一个数据累积过程,天天我们站长关心的收录,ip,PR企业邮箱域名注册潍坊租房,pv等等的统统都是搜索引擎显现给我们的数据.既然是数据,那么一定就有可能出现偏差,当我们网站在排名上出现一些小波动的时,假如网站自己并没采取作弊或者诳骗的手段,完全不必在意.不要在这些小的题目上过于的纠结,这很有可能只是搜索引擎自身的题目,待搜索引擎数据更新后会自行恢复.
Seo无捷径,路是一步一步走出来的
seo中无捷径,黑帽,诳骗,伪原创大概在短期可以让你的网站排名敏捷上升,但这不是长久之计,一旦被搜索处罚,轻则降权,重点k站.seo的取得好排名的关键在于时间,详细的时间得看你网站关键词的热度
以及你网站的内容来决定.以后的搜索引擎更着重于网站的价值,如何衡量一个网站的价值呢?最好的体例就是用户,只要在你的网站上用户找到了对本身有效的内容从而反复的欣赏你的网站,这就是价值
价值将来将直接决定排名.
本文由www.zbdz.com站长原创
点击数:&相关搜索:
技术咨询: &&24小时服务热线:
&&邮 箱:@b.qq.com
&by&易达网络 all rights reserved
分部地 址:潍坊市奎文区虞河路与玉清街交叉口锦绣苑&&邮 编:261000百度搜索引擎的工作原理-马海祥博客
新型SEO思维就是从一个全新的层次上提升seo优化的水平,达到网络信息最佳化的展示效果!
> 百度搜索引擎的工作原理
百度搜索引擎的工作原理
时间:&&&文章来源:马海祥博客&&&访问次数:
关于百度以及其它搜索引擎的工作原理,其实大家已经讨论过很多,但随着科技的进步、互联网业的发展,各家搜索引擎都发生着巨大的变化,并且这些变化都是飞快的,本文的目的,除了从百度官方的角度发出一些声音、纠正一些之前的误读外,还希望通过不断更新内容,与百度搜索引擎发展保持同步,给各位站长带来最新的、与百度高相关的信息。
本章主要内容分为四个章节,分别为:抓取建库;检索排序;外部投票;结果展现。
一、抓取建库
互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节,数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做&spider&,例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。
1、Spider抓取系统的基本框架
Spider抓取系统是搜索引擎数据来源的重要保证,如果把web理解为一个有向图,那么,spider的工作过程可以认为是对这个有向图的遍历,从一些重要的种子URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。
对于类似百度这样的大型spider系统,因为每时每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。
上图为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统,Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。
2、Baiduspider 主要抓取策略类型
上图看似简单,但其实Baiduspider在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略,以下马海祥博客也为大家做下简单的介绍:
(1)、抓取友好性
互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源,这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为,因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。
通常情况下,最基本的是基于ip的压力控制,这是因为如果基于域名,可能存在一个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。
实际中,往往根据ip及域名的多种条件进行压力调配控制,同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。
对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。
同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整,在马海祥看来,对于不同站点,也需要不同的抓取速度。
(2)、常用抓取返回码示意
简单介绍几种百度支持的返回码:
①、最常见的404代表&NOT FOUND&,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取(具体可查看马海祥博客《》的相关介绍)。
②、503代表&Service Unavailable&,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况,对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。
③、403代表&Forbidden&,认为网页目前禁止访问。如果是新url,spider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次,如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。
④、301代表是&Moved Permanently&,认为网页重定向至新url,当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。
(3)、多种url重定向的识别
互联网中一部分网页因为各种各样的原因存在url重定向状态,为了对这部分资源正常抓取,就要求spider对url重定向进行识别判断,同时防止作弊行为。
重定向可分为三类:http 30x重定向、meta refresh重定向和js重定向,另外,百度也支持Canonical标签,在效果上可以认为也是一种间接的重定向。
(4)、抓取优先级调配
由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略,主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等,每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到最优的抓取效果。
(5)、重复url的过滤
spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取再进行抓取网页的行为并放在已抓取网址集合中,判断是否已经抓取其中涉及到最核心的是快速查找并对比,同时涉及到url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面,这将视为同一个url来对待(具体可查看马海祥博客《》的相关介绍)。
(6)、暗网数据的获取
互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据,一方面,很多网站的大量数据是存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法抓取。
目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如&百度站长平台&&百度开放平台&等等。
(7)、抓取反作弊
spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统,例如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等等。
3、Baiduspider抓取过程中涉及的网络协议
刚才提到百度搜索引擎会设计复杂的抓取策略,其实搜索引擎与资源提供者之间存在相互依赖的关系,其中搜索引擎需要站长为其提供资源,否则搜索引擎就无法满足用户检索需求;而站长需要通过搜索引擎将自己的内容推广出去获取更多的受众。
spider抓取系统直接涉及互联网资源提供者的利益,为了使搜素引擎与站长能够达到双赢,在抓取过程中双方必须遵守一定的规范,以便于双方的数据处理及对接,这种过程中遵守的规范也就是日常中我们所说的一些网络协议,以下简单列举:
(1)、http协议
超文本传输协议,是互联网上应用最为广泛的一种网络协议,客户端和服务器端请求和应答的标准。
客户端一般情况是指终端用户,服务器端即指网站,终端用户通过浏览器、蜘蛛等向服务器指定端口发送http请求,发送http请求会返回对应的httpheader信息,可以看到包括是否成功、服务器类型、网页最近更新时间等内容。
(2)、https协议
实际是加密版http,一种更加安全的数据传输协议(具体可查看马海祥博客《》的相关介绍)。
(3)、UA属性
UA即user-agent,是http协议中的一个属性,代表了终端的身份,向服务器端表明我是谁来干嘛,进而服务器端可以根据不同的身份来做出不同的反馈结果。
(4)、robots协议
robots.txt是搜索引擎访问一个网站时要访问的第一个文件,用以来确定哪些是被允许抓取的哪些是被禁止抓取的,robots.txt必须放在网站根目录下,且文件名要小写,详细的robots.txt写法可参考马海祥博客《》的相关介绍,百度严格按照robots协议执行,另外,同样支持网页内容中添加的名为robots的meta标签,index、follow、nofollow等指令。
4、Baiduspider抓取频次原则及调整方法
Baiduspider根据上述网站设置的协议对站点页面进行抓取,但是不可能做到对所有站点一视同仁,会综合考虑站点实际情况确定一个抓取配额,每天定量抓取站点内容,即我们常说的抓取频次,那么百度搜索引擎是根据什么指标来确定对一个网站的抓取频次的呢?主要指标有四个:
(1)、网站更新频率:更新快多来,更新慢少来,直接影响Baiduspider的来访频率(具体可查看马海祥博客《》的相关介绍)。
(2)、网站更新质量:更新频率提高了,仅仅是吸引了Baiduspier的注意,Baiduspider对质量是有严格要求的,如果网站每天更新出的大量内容都被Baiduspider判定为低质页面,依然没有意义。
(3)、连通度:网站应该安全稳定、对Baiduspider保持畅通,经常给Baiduspider吃闭门羹可不是好事情。
(4)、站点评价:百度搜索引擎对每个站点都会有一个评价,且这个评价会根据站点情况不断变化,是百度搜索引擎对站点的一个基础打分(绝非外界所说的),是百度内部一个非常机密的数据,站点评级从不独立使用,会配合其它因子和阈值一起共同影响对网站的抓取和排序。
抓取频次间接决定着网站有多少页面有可能被建库收录,如此重要的数值如果不符合站长预期该如何调整呢?百度站长平台提供了抓取频次工具,该工具除了提供抓取统计数据外,还提供&频次调整&功能,站长根据实际情况向百度站长平台提出希望Baiduspider增加来访或减少来访的请求,工具会根据站长的意愿和实际情况进行调整。
5、造成Baiduspider抓取异常的原因
有一些网页,内容优质,用户也可以正常访问,但是Baiduspider却无法正常访问并抓取,造成搜索结果覆盖率缺失,对百度搜索引擎对站点都是一种损失,百度把这种情况叫&抓取异常&。
对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、排序上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。
下面马海祥博客向站长们介绍一些常见的抓取异常原因:
(1)、服务器连接异常
服务器连接异常会有两种情况:一种是站点不稳定,Baiduspider尝试连接您网站的服务器时出现暂时无法连接的情况;一种是Baiduspider一直无法连接上您网站的服务器。
造成服务器连接异常的原因通常是您的网站服务器过大,超负荷运转,也有可能是您的网站运行不正常,请检查网站的web服务器(如apache、iis)是否安装且正常运行,并使用浏览器检查主要页面能否正常访问,您的网站和主机还可能阻止了Baiduspider的访问,您需要检查网站和主机的防火墙。
(2)、网络运营商异常
网络运营商分电信和联通两种,Baiduspider通过电信或网通无法访问您的网站,如果出现这种情况,您需要与网络服务运营商进行联系,或者购买拥有双线服务的空间或者购买cdn服务。
(3)、DNS异常
当Baiduspider无法解析您网站的IP时,会出现DNS异常,可能是您的网站IP地址错误,或者域名服务商把Baiduspider封禁,请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。
(4)、IP封禁
IP封禁为:限制网络的出口IP地址,禁止该IP段的使用者进行内容访问,在这里特指封禁了BaiduspiderIP,当您的网站不希望Baiduspider访问时,才需要该设置,如果您希望Baiduspider访问您的网站,请检查相关设置中是否误添加了BaiduspiderIP,也有可能是您网站所在的空间服务商把百度IP进行了封禁,这时您需要联系服务商更改设置。
(5)、UA封禁
UA即为用户代理(User-Agent),服务器通过UA识别访问者的身份。当网站针对指定UA的访问,返回异常页面(如403,500)或跳转到其他页面的情况,即为UA封禁,当您的网站不希望Baiduspider访问时,才需要该设置,如果您希望Baiduspider访问您的网站,useragent相关的设置中是否有Baiduspider UA,并及时修改。
(6)、死链
页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,包括协议死链和内容死链两种形式:
①、协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。
②、内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。
对于死链,马海祥建议站点使用协议死链,并通过百度站长平台--死链工具向百度提交,以便百度更快地发现死链,减少死链对用户以及搜索引擎造成的负面影响。
(7)、异常跳转
将网络请求重新指向其他位置即为跳转,异常跳转指的是以下几种情况:
①、当前该页面为无效页面(内容已删除、死链等),直接跳转到前一目录或者首页,百度建议站长将该无效页面的入口超链接删除掉。
②、跳转到出错或者无效页面。
注意:对于长时间跳转到其他域名的情况,如网站更换域名,百度建议使用301跳转协议进行设置。
(8)、其他异常
①、针对百度refer的异常:网页针对来自百度的refer返回不同于正常内容的行为。
②、针对百度ua的异常:网页对百度UA返回不同于页面原内容的行为。
③、JS跳转异常:网页加载了百度无法识别的JS跳转代码,使得用户通过搜索结果进入页面后发生了跳转的情况。
④、压力过大引起的偶然封禁:百度会根据站点的规模、访问量等信息,自动设定一个合理的抓取压力,但是在异常情况下,如压力控制失常时,服务器会根据自身负荷进行保护性的偶然封禁,这种情况下,请在返回码中返回503(其含义是&Service Unavailable&),这样Baiduspider会过段时间再来尝试抓取这个链接,如果网站已空闲,则会被成功抓取。
6、新链接重要程度判断
好啦,上面我们说了影响Baiduspider正常抓取的原因,下面就要说说Baiduspider的一些判断原则了。
在建库环节前,Baiduspider会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,通过链接分析发现更多网页,再对更多网页进行抓取&&分析&&是否建库&发现新链接的流程。
理论上,Baiduspider会将新页面上所有能&看到&的链接都抓取回来,那么,面对众多新链接,Baiduspider根据什么判断哪个更重要呢?
(1)、对用户的价值
①、内容独特,百度搜索引擎喜欢unique的内容。
②、主体突出,切不要出现网页主体内容不突出而被搜索引擎误判为空短页面不抓取。
③、内容丰富。
④、广告适当。
(2)、链接重要程度
①、目录层级&&浅层优先。
②、链接在站内的受欢迎程度。
7、百度优先建重要库的原则
Baiduspider抓了多少页面并不是最重要的,重要的是有多少页面被建索引库,即我们常说的&建库&,众所周知,搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料,目前60%的检索需求只调用重要索引库即可满足,这也就解释了为什么有些网站的收录量超高流量却一直不理想。
那么,哪些网页可以进入优质索引库呢?在马海祥看来,其实总的原则就是一个:对用户的价值,包括却不仅于:
(1)、有时效性且有价值的页面
在这里,时效性和价值是并列关系,缺一不可。有些站点为了产生时效性内容页面做了大量采集工作,产生了一堆无价值面页,也是百度不愿看到的.
(2)、内容优质的专题页面
专题页面的内容不一定完全是原创的,即可以很好地把各方内容整合在一起,或者增加一些新鲜的内容,比如观点和评论,给用户更丰富全面的内容。
(3)、高价值原创内容页面
百度把原创定义为花费一定成本、大量经验积累提取后形成的文章,千万不要再问我们伪原创是不是原创(具体可查看马海祥博客《》的相关介绍)。
(4)、重要个人页面
这里仅举一个例子,科比在新浪微博开户了,即使他不经常更新,但对于百度来说,它仍然是一个极重要的页面。
8、哪些网页无法建入索引库
上述优质网页进了索引库,那其实互联网上大部分网站根本没有被百度收录,并非是百度没有发现他们,而是在建库前的筛选环节被过滤掉了,那怎样的网页在最初环节就被过滤掉了呢?
(1)、重复内容的网页:互联网上已有的内容,百度必然没有必要再收录。
(2)、主体内容空短的网页,这包括:
①、有些内容使用了百度spider无法解析的技术,如JS、AJAX等,虽然用户访问能看到丰富的内容,依然会被搜索引擎抛弃。
②、加载速度过慢的网页,也有可能被当作空短页面处理,注意广告加载时间算在网页整体加载时间内。
③、很多主体不突出的网页即使被抓取回来也会在这个环节被抛弃。
(3)、部分作弊网页。
二、检索排序
众所周知,搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。
1、索引系统
在以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针,也许一定的时间内可以完成查找,但是用户等不起,从用户体验角度我们必须在毫秒级别给予用户满意的结果,否则用户只能流失,怎样才能达到这种要求呢?
如果能知道用户查找的关键词(query切词后)都出现在哪些页面中,那么用户检索的处理过程即可以想象为包含了query中切词后不同部分的页面集合求交的过程,而检索即变成了页面名称之间的比较、求交,这样,在毫秒内以亿为单位的检索成为了可能,这就是通常所说的倒排索引及求交检索的过程,如下为建立倒排索引的基本过程:
(1)、页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等。
(2)、分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等(具体可查看马海祥博客《》的相关介绍)。
(3)、之前的准备工作完成后,接下来即是建立倒排索引,形成{term&doc},下图即是索引系统中的倒排索引过程:
倒排索引是搜索引擎实现毫秒级检索非常重要的一个环节,下面我们要重要介绍一下索引系统建立倒排索引的重要过程&&入库写库。
2、倒排索引的重要过程&&入库写库
索引系统在建立倒排索引的最后还需要有一个入库写库的过程,而为了提高效率这个过程还需要将全部term以及偏移量保存在文件头部,并且对数据进行压缩,这涉及到的过于技术化在此就不多提了,在此,马海祥博客也简要给大家介绍一下索引之后的检索系统。
检索系统主要包含了五个部分,如下图所示:
(1)、Query串切词分词即将用户的查询词进行分词,对之后的查询做准备,以&10号线地铁故障&为例,可能的分词如下(同义词问题暂时略过):
10& 0x123abc
  号&& 0x13445d
  线&& 0x234d
  地铁 0x145cf
  故障 0x354df
(2)、查出含每个term的文档集合,即找出待选集合,如下:
0x123abc&& 1& 2 3& 4& 7& 9&..
  0x13445d&& 2& 5 8& 9& 10& 11&&
(3)、求交,上述求交,文档2和文档9可能是我们需要找的,整个求交过程实际上关系着整个系统的性能,这里面包含了使用缓存等等手段进行性能优化。
(4)、各种过滤,举例可能包含过滤掉死链、重复数据、色情、垃圾结果以及你懂的!
(5)、最终排序,将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等。
3、影响搜索结果排序的因素
上面的内容好象有些深奥,因为涉及大量技术细节,马海祥只能说到这儿了,那下面马海祥说说大家最感兴趣的排序问题吧,用户输入关键词进行检索,百度搜索引擎在排序环节要做两方面的事情,第一是把相关的网页从索引库中提取出来,第二是把提取出来的网页按照不同维度的得分进行综合排序,&不同维度&包括:
(1)、相关性:网页内容与用户检索需求的匹配程度,比如网页包含的用户检查关键词的个数,以及这些关键词出现的位置;外部网页指向该页面所用的锚文本等。
(2)、权威性:用户喜欢有一定权威性网站提供的内容,相应的,百度搜索引擎也更相信优质权威站点提供的内容。
(3)、时效性:时效性结果指的是新出现的网页,且网页内承载了新鲜的内容,目前时效性结果在搜索引擎中日趋重要。
(4)、重要性:网页内容与用户检查需求匹配的重要程度或受欢迎程度。
(5)、丰富度:丰富度看似简单却是一个覆盖范围非常广的命题,可以理解为网页内容丰富,可以完全满足用户需求;不仅可以满足用户单一需求,还可以满足用户的延展需求。
(6)、受欢迎程度:指该网页是不是受欢迎。
以上便是百度搜索引擎决定搜索结果排序时考虑的六大原则,那么六大原则的侧重点是怎样的呢?哪个原则在实际应用时占比最大呢?其实在这里没有一个确切的答案。
在百度搜索引擎早期,这些阈值的确是相对固定的,比如&相关性&在整体排序中的重量可以占到七成,但随着互联网的不断发展,检索技术的进步,网页数量的爆发式增长,相关性已经不是难题,于是百度搜索引擎引入了机器学习机制,让程序自动产出计算公式,推进排序策略更加合理。
4、低质网页狙击策略&&石榴算法
我们理解网站生存发展需要资金支持,从来不反对网站添加各种合法广告,不要再问我们&我们网站加了XX联盟的广告会不会被处罚&这类问题,有些站点好不容易在百度有了比较好的排位,却在页面上放置大量有损访问用户体验的广告,已经严重影响到百度搜索引擎用户的使用感受。
为此,百度质量团队日发布公告:针对低质量网页推出了石榴算法,旨在打击含有大量妨碍用户正常浏览的恶劣广告的页面,尤其是弹出大量低质广告、存在混淆页面主体内容的垃圾广告的页面(具体可查看马海祥博客《》的相关介绍)。
百度质量团队希望站长能够多从用户角度出发,朝着长远发展考虑,在不影响用户体验的前提下合理地放置广告,赢得用户的长期青睐才是一个网站发展壮大的基础。
三、外部投票
曾经,&内容为王,外链为皇&的说法流行了很多年,通过超链计算得分来体现网页的相关性和重要性,的确曾经是搜索引擎用来评估网页的重要参考因素之一,会直接参与搜索结果排序计算。
1、外链的作用
随着该技术被越来越多的SEO人员了解,超链已经逐渐失去作为投票的重要意义,无论是谷歌还是百度,对超链数据的依赖程度都越来越低,那么,在现在,超链在发挥着怎样的作用?
(1)、吸引蜘蛛抓取
虽然百度在挖掘新好站点方面下了很大工夫,开放了多个数据提交入口,开避了社会化发现渠道,但超链依然是发现收录链接的最重要入口。
(2)、向搜索引擎传递相关性信息
百度除了通过TITLE、页面关键词、H标签等对网页内容进行判断外,还会通过锚文本进行铺助判断,使用图片作为点击入口的超链,也可以通过alt属性和title标签向百度传情达意。
(3)、提升排名
百度搜索引擎虽然降低了对超链的依赖,但对超链的识别力度从未下降,制定出更加严格的优质链接、正常链接、垃圾链接和作弊链接标准(具体可查看马海祥博客《》的相关介绍)。
对于作弊链接,除了对链接进行过滤清理外,也对链接的受益站进行一定程度的惩罚,相应的,对优质链接,百度依然持欢迎的态度。
(4)、内容分享,获取口碑
优质内容被广泛传播,网站借此获得的流量可能并不多,但如果内容做得足够,也可以树立自己的品牌效应。
严格来讲,这并不属于超链的作用,在百度眼里,网站的品牌比超链要重要得多。
2、切断买卖超链的利刃&&绿萝算法
百度质量团队日发布公告推出绿萝算法,针对买卖链接行为再次强调:买卖链接行为一方面影响用户体验,干扰搜索引擎算法;另一方面让投机建站者得利、超链中介者得利,真正勤勤恳恳做好站的站长在这种恶劣的互联网超链环境中无法获得应有的回报,因此,针对买卖链接行为在清除外链计算的基础上,以下三个类型的网站将会受到不同程度的影响:
(1)、超链中介
超链本应是互联网上相对优质的推荐,是普通用户及网站之间对页面内容、网站价值的肯定,但是现在种种超链作弊行为使得真实的肯定变成了一些人谋取利益的垫脚石,用户无法根据链接的推荐找到需要的优质资源,并且严重干扰搜索引擎对网站的评价,超链中介便是这畸形的超链市场下形成的恶之花,我们有义务维护超链的纯净维护用户利益,也有责任引导站长朋友们不再支出无谓的花销,所以超链中介将在我们的目标范围内。
(2)、出卖链接的网站
一个站点有许多种盈利方式,利用优质的原创内容吸引固定用户,引进优质广告资源,甚至举办线下活动,这些盈利方式都是我们乐于见到的,是一个网站的真正价值所在,但是一些网站内容基本采集自网络,以出卖超链位置为生;一些机构类网站或被链接中介所租用进行链接位置出售,使得超链市场泡沫越吹越多,此次的调整对这类站点同样将有所影响。
(3)、购买链接的网站
一直以来,百度对优质站点都会加以保护和扶植,这是从用户需求以及站长的角度出发的必然结果,而部分站长不将精力用在提升网站质量上,而选择钻营取巧,以金钱换取超链,欺骗搜索引擎进而欺骗用户。
对于没有太多资源和金钱用于此类开销的创业站长来说,也是一种无形的伤害,如果不进行遏制,劣币驱逐良币,势必导致互联网环境愈加恶劣,此次调整这类站点本身也将受到影响。
以上即百度质量团队首次推出绿萝算法时的具体情况,后来被称为绿萝算法1.0(具体可查看马海祥博客《》的相关介绍),事隔5个月之后,百度质量团队再次推出绿萝算法2.0,针对明显的推广性软文进行更大范围更加严格的处理。
惩罚的对象重点是发布软文的新闻站点,同时包括软文交易平台、软文收益站点,惩罚方式包括:
①、针对软文交易平台,将被直接屏蔽。
②、针对软文发布站,将视不同程度而进行处理。
例如一个新闻网站,存在发布软文的现象但情节不严重,该网站在搜索系统中将被降低评价;利用子域大量发布软文的,该子域将被直接屏蔽,并且清理出百度新闻源;更有甚者创建大量子域用于发布软文,此种情况整个主域将被屏蔽。
③、针对软文受益站,一个网站的外链中存在少量的软文外链,那么此时该外链将被过滤清除出权重计算体系,该受益站点将被观察一段时间后视情况而进一步处理;一个网站的外链中存在大量的软文外链,那么,此时该受益站点将被降低评价或直接屏蔽。
四、结果展现
网页经历了抓取建库,参与了排序计算,最终展现在搜索引擎用户面前,目前在百度搜索左侧结果展现形式很多,如:凤巢、品牌专区、自然结果等,一条自然结果怎样才能获得更多的点击,是站长要考虑的重要一环。
目前,自然结果里又分为两类,第一个,即结构化展现,形式比较多样,目前覆盖80%的搜索需求,即80%的关键词下会出现这种复杂展现样式;第二个即一段摘要式展现,最原始的展现方式,只有一个标题、两行摘要、部分链接,如下图所示:
很明显,结构化展现能够向用户明确传递信息,直击用户需求痛点,获得更好的点击自然不在话下,目前,百度结构化展现有几个样式:
1、通用问答:提取答案,方便搜索用户参考,有些结构化数据还提取出了问题。
2、下载类展示。
3、时间戳:对于时效性较强的资讯,将时间提取出来,吸引用户点击,还有回复的条目,能够表现这个链接的有效性和热度。
4、在线文档:出现文档格式示意图。
5、原创标记:原创标记的使用是最严格的,只有通过人工审核的站点才能拥有原创标志,在抓取和排序上有一定优待,所以审核非常严格,严控质量。
6、配图:扩大面积,方便用户了解网页内容,吸引点击。
那么,站长可以通过什么途径获得结果化展现呢?
1、参与原创星火计划:百度站长平台VIP俱乐部提供申请入口,需要经过人工审核后进行数据提交。
2、结构化数据提交工具。
3、结构化数据标注工具。
4、搜索结果配图,具体要求是:在文章主体位置;图片与内容相关;图片上没有文字;图片比例接近121*91即可。
马海祥博客点评:
每一个SEOer都应该认清楚搜索引擎优化的最根本目的就是为了获得用户,因此用户体验不能够忽视,我们在搜索引擎上获得排名的原因也是因为我们为用户提供了有价值的内容,在发展方向上,无论你是站长还是专业的SEOer,都应该朝着做用户、做产品、做服务的方面去发展,而不应该局限于SEO,此点甚为重要。
本文为原创文章,如想转载,请注明原文网址摘自于http://www.mahaixiang.cn/seoyjy/1222.html,注明出处;否则,禁止转载;谢谢配合!
您可能还会对以下这些文章感兴趣!
最近和几个博友一直在讨论:信息架构与用户体验是有什么不同?,信息架构和用户体验,那个才是未来网站建设……
关于美国微软公司,你或许对其历史、产品和创始人比尔?盖茨辍学创业的故事耳熟能详。那么,你是否知道微软……
之前写过一篇名为《 京东商城vs苏宁易购明为价格站,实为电子商务站 》的文章,阐述了自己对电子商务的一点……
目前国内网站的安全问题十分严峻,众多网站由第三方代建,维护人……
随着互联网的发展,网站的数量也在随着成倍的增加着,就中国的互……
IIS在运行的过程中日志会不停地增长,若IIS的网站被频繁的调用或……
丰富网页摘要英文名称为Rich Snippets,通俗的来讲就是在每条搜……
百度快照的重要性是从它本身蕴含的信息来说的,百度快照速度快,……
在互联网诞生之初,人们对SEO并没有什么概念,而伴随着互联网的……
本月热点文章}

我要回帖

更多关于 伪原创算法 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信