为什么我的网站已经加了robots.txt规则,还能在百度搜索出来?

为什么我的网站已经添加robots.txt,还能在搜搜网页中被搜索到?_百度知道
为什么我的网站已经添加robots.txt,还能在搜搜网页中被搜索到?
应该不能被搜索到的了啊 ,怎么还能被搜索到呢?
我有更好的答案
你的robots.txt
是怎么写的
等等,过一段时间就刷没了,更新需要几周的时间
其他类似问题
搜搜的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁我明明设置了robots.txt禁止搜索引擎收录的,为什么百度还是收录了我的首页
- SEO十万个为什么
我明明设置了robots.txt禁止搜索引擎收录的,为什么百度还是收录了我的首页
我robots.txt是这样写的User-agent: * Disallow: /这样写是不是禁止所有搜索引擎收录啊,我这样写对了吗?我昨天有一个站都还没有做好,我就是想上传到空间想测试一下,谁知道昨天上传的网站,今天百度就收录了首页,我连都没有写好百度就抓取了,现在我的title在百度上显示就是dedecms默认的title “我的网站”。想它收录的时候它不收录,不想他收录的时候它却够快的,到时候我改title的时候不知道会怎么样?百度会是什么反应呢?
三种原因你排除一下吧1.你没有放在根目录下,相信对你这样会做robots的人来说应该不会出现2.命名没有小写,相信也不会出现3.百度不能通过你的网站收录,但如果有其他网站链接你的首页,你的首页一样被收录,因为那个时候百度不直接访问你的网站文件。例如淘宝网淘宝网首页能在百度搜到,但内容被淘宝设置为了 User-agent: Baiduspider Disallow: / 请采纳我为最佳答案,我自信我快乐,我助人为乐
其他回答 (2)
& 度娘比较色 不规矩
三种原因你排除一下吧1.你没有放在根目录下,相信对你这样会做robots的人来说应该不会出现2.命名没有小写,相信也不会出现3.百度不能通过你的网站收录,但如果有其他网站链接你的首页,你的首页一样被收录,因为那个时候百度不直接访问你的网站文件。例如淘宝网淘宝网首页能在百度搜到,但内容被淘宝设置为了 User-agent: Baiduspider Disallow: / 请采纳我为最佳答案,我自信我快乐,我助人为乐
等待您来回答
该问题来自:全国数十万SEO从业人员在SEOWHY交流搜索引擎动态,求围观。中国文学领域专家百度的搜索是怎么抓取网站的_百度知道
百度的搜索是怎么抓取网站的
提问者采纳
什么是baiduspider? baiduspider是百度搜索引擎的一个自动程序。它的作用是访问互联网上的html网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页。 baiduspider对一个网站服务器造成的访问压力如何?baiduspider会自动根据服务器的负载能力调节访问密度。在连续访问一段时间后,baiduspider会暂停一会,以防止增大服务器的访问压力。所以在一般情况下,baiduspider对您网站的服务器不会造成过大压力。 为什么baiduspider不停的抓取我的网站?对于您网站上新产生的或者持续更新的页面,baiduspider会持续抓取。此外,您也可以检查网站访问日志中baiduspider的访问是否正常,以防止有人恶意冒充baiduspider来频繁抓取您的网站。 如果您发现baiduspider非正常抓取您的网站,请反馈至,并请尽量给出baiduspider对贵站的访问日志,以便于我们跟踪处理。我不想我的网站被baiduspider访问,我该怎么做?baiduspider遵守互联网robots协议。您可以利用robots.txt文件完全禁止baiduspider访问您的网站,或者禁止baiduspider访问您网站上的部分文件。 注意:禁止baiduspider访问您的网站,将使您的网站上的网页,在百度搜索引擎以及所有百度提供搜索引擎服务的搜索引擎中无法被搜索到。 关于robots.txt的写作方法,请参看我们的介绍:robots.txt写作方法为什么我的网站已经加了robots.txt,还能在百度搜索出来? 因为搜索引擎索引数据库的更新需要时间。虽然baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要二至四周才会清除。 另外也请检查您的robots配置是否正确。百度蜘蛛在robots.txt中的名字是什么? “Baiduspider” 首字母B大写,其余为小写。 baiduspider多长时间之后会重新抓取我的网页? 百度搜索引擎每周更新,网页视重要性有不同的更新率,频率在几天至一月之间,baiduspider会重新访问和更新一个网页。 baiduspider抓取造成的带宽堵塞? baiduspider的正常抓取并不会造成您网站的带宽堵塞,造成此现象可能是由于有人冒充baidu的spider恶意抓取。如果您发现有名为Baiduspider的agent抓取并且造成带宽堵塞,请尽快和我们联系。您可以将信息反馈至,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。
其他类似问题
9人觉得有用
其他1条回答
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。 真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。 现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。 搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。 从互联网上抓取网页 利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。 建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。 在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。 搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。 互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。 你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。
等待您来回答
您可能关注的推广回答者:
下载知道APP
随时随地咨询
出门在外也不愁新浪广告共享计划>
广告共享计划
网络营销教程—SEO&第16章&新手进阶你还应该知道的
什么是baiduspider?
baiduspider是百度搜索引擎的一个自动程序。它的作用是访问互联网上的html网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页。
baiduspider对一个网站服务器造成的访问压力如何?
baiduspider会自动根据服务器的负载能力调节访问密度。在连续访问一段时间后,baiduspider会暂停一会,以防止增大服务器的访问压力。所以在一般情况下,baiduspider对您网站的服务器不会造成过大压力。
为什么baiduspider不停的抓取我的网站?
对于您网站上新产生的或者持续更新的页面,baiduspider会持续抓取。此外,您也可以检查网站访问日志中baiduspider的访问是否正常,以防止有人恶意冒充baiduspider来频繁抓取您的网站。
如果您发现baiduspider非正常抓取您的网站,请反馈至,并请尽量给出baiduspider对贵站的访问日志,以便于我们跟踪处理。
我不想我的网站被baiduspider访问,我该怎么做?
baiduspider遵守互联网robots协议。您可以利用robots.txt文件完全禁止baiduspider访问您的网站,或者禁止baiduspider访问您网站上的部分文件。
注意:禁止baiduspider访问您的网站,将使您的网站上的网页,在百度搜索引擎以及所有百度提供搜索引擎服务的搜索引擎中无法被搜索到。
关于robots.txt的写作方法,请参看我们的介绍:robots.txt写作方法
为什么我的网站已经加了robots.txt,还能在百度搜索出来?
因为搜索引擎索引数据库的更新需要时间。虽然baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要二至四周才会清除。
另外也请检查您的robots配置是否正确。
我希望我的网站内容被百度索引但不被保存快照,我该怎么做?
baiduspider遵守互联网meta
robots协议。您可以利用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。
和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。
百度蜘蛛在robots.txt中的名字是什么?
“Baiduspider” 首字母B大写,其余为小写。
baiduspider多长时间之后会重新抓取我的网页?
百度搜索引擎每周更新,网页视重要性有不同的更新率,频率在几天至一月之间,baiduspider会重新访问和更新一个网页。
baiduspider抓取造成的带宽堵塞?
baiduspider的正常抓取并不会造成您网站的带宽堵塞,造成此现象可能是由于有人冒充baidu的spider恶意抓取。如果发现有名为Baiduspider的agent抓取并且造成带宽堵塞,请尽快和我们联系。可以将信息反馈至,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。
1什么是沙盒
所谓的“沙盒效应(Sandbox
Effect)”对于许多网站管理员来说不像游乐场,倒更像流沙。
  由最主要的搜索引擎Google所决定的搜索引擎结果页面(搜索结果)中,新发布的网站排名越来越低。这一现象被称为“沙盒效应”,而它着实让很多站长头疼。当一个新的网站被Google列入索引之后,它通常会获得被许多观察员认为的对“新网站”的奖励。这个崭新的网站将在搜索结果列表中飞速上升至顶部,然而却是昙花一现,随后,排名就会不断下降。
  在最重要的关键字搜索排名前列的数日风光之后,这些网站就会被雪藏于Google搜索结果底部,好像根本不存在一样。即使该网站可能具有很高的Google网页级别(PR值),拥有很多强有力并且主题相关的引入链接和丰富的内容,它还是会遭遇到令人沮丧的“沙盒效应(Sandbox)”的影响。
  当网页在Google的沙盒中深埋的时候,对于同一个关键词,它却可能在Yahoo(雅虎)和MSN的搜索结果中获得很高的排名。看来,“沙盒效应”是Google的独特事件。
  你需要考虑怎样才能从沙盒效应中摆脱出来。当抑制因素排除时,你在沙盒惩罚期间所做的工作可以使你的网站重新出现在搜索结果中。
  沙盒效应作为Google使用的搜索排名阻尼过滤器(search ranking damping
filter),是用于网站首次发布后的头两个月至4个月内获得“新站奖励(fresh site
bonus)”的网站。这个给予新网站的奖励是指短时间内在搜索结果中获得非常高的排名,因为Google偏爱新内容。在沙盒期间,新站应该不断完善各方面SEO,沙盒效应过后,一般会有不错的排名。
  由于原来的新内容变得稍微成旧,沙盒过滤器开始起作用。这就是沙盒效应。一个网站陷入沙盒的平均时间长度大约为90天,但是很少在沙盒中持续呆4个月。
  大多数网站按照关键字的类型分享阻尼下降效应(damping down
effect)。沙盒过滤器适用于所有网站,而不管它们是否有很多引入链接,即使有相关性很强的链接也没什么区别。内容丰富的网站也同样会陷入流沙。沙盒效应必然是Google的算法之一,因为它最近很普遍。
  沙盒效应的意图是什么?
  很多观察者都认为,沙盒过滤器的目的是劝阻不择手段的WEB站点管理员不要使用违反Google站点管理员指南的做法。Google试图瓦解一些手法,如使用垃圾站点建立初期的流量,购买过期的域名以获得其之前存在的Google网页等级作为跳跃的起点。
  除非建立更长久的链接,否则短期的链接租用和放置对一个新网站来说并没有什么好处。也存在这种可能性:即Google在索引一个网站后的最初几个月中,并不会给予其全部的网页等级(PageRank)。阻尼效应(dampening
effect)造成的缺乏信用的网页等级(PageRank)会降低过期域名引入链接的价值。
  从这种情况可以推断出Google是否试图在阻止普遍的购买过期域名的行为。例如,Google工具栏可能显示为PR7,但是算法可能赋予其网站搜索排名的PR值为零。当然,这种情况下也有可能导致相当高的Google排名。
  Google可能打击的另一个方法是垃圾站点。如果一个纯粹的垃圾站点制造者(spammer)在网站运行后的头几个月中不能获得好的排名,他们可能会关闭他们的垃圾站点。打击spammer是Google的长期目标。
  然而,Google方面声称的任何良好的意图都间接打击了那些没有违反任何规则的网站。许多WEB站点管理员,尤其是那些完全不知道SEO整体情况的站长,通常对于所发生的事情非常困惑。例如,他们在Yahoo
和MSN的搜索结果中排名很好,但却不知道为什么不在Google的索引目录中。还有很多人错误地认为他们无意中触发了Google的惩罚。
  Google打击的另一个行为是购买链接获得初始的网页等级(PageRank)。Google公司的人可能认为一个网站应该随着时间的过去而自然获得链接。他们认为购买的链接不是网站自然发展的表现。但是,只有少数几个自然链接的网站,也遭遇了同样的沙盒阻尼效应(dampening
effect)。
  这种情况也完全有可能发生:即一个网站没有被放在沙盒中,但是它的链接正在被监测。算法可能会考虑其链接的时间,它们的链接站点,Internet服务商拥有的链接范围,以及通常情况下整个链接的多样性。
  如果你的网站正好进入沙盒,最好不要惊慌。Google并没有惩罚你的网站。你也知道你的网站已经被Google索引。相反,这只是一个正常的现象,是Google算法有些令人困惑的和苦恼的地方。如果网站由于“新站奖励效果”而在搜索结果中获得很高的排名,则很有可能会尝到苦果。
2什么是Google Dance?
  Google dance是指Google搜索引擎数据库每月一次的大规模升级。
  在升级期间,新的网页被加入,无效网页被删除,对收录网站进行全面深度检索,也可能在这期间调整算法。Goolge搜索结果显示出剧烈的排名波动,同时被索引网站的外部链接也获得更新。每个季度更新一次的网页级别(Page
Rank)也发生在Google
dance期间。Dance一般持续几天时间,Dance结束后,Google搜索结果和网站外部链接数量趋于稳定,直至下一个周期的Google
dance到来。
  Google Dance
是Google定期更新它的索引的活动,给人感觉就像是跳舞一样。在这个Dance的过程中,Google所储存的索引都被重新更新,网站的排名会发生剧烈变化,有的网站在Google上的排名一夜之间消失,有的网站则名列首位。Google
Dance通常在月末的那周开始,新结果在月初几天可以看到,大概是每36天一次或者一年10次。
  Google Dance相关背景
  佛罗里达风暴和奥斯汀风暴
  2003年11月上旬Google开始的对排名算法的剧烈更新。这个更新,犹如飓风,一夜之间让千万个网站从搜索引擎中消失或者从前10名降级到100页以后,使很多网站在即将到来的圣诞节购物黄金季节失去大量的客源。因为,Google的这次更新是以位于佛罗里达的Google数据中心为主的,因此称为“佛罗里达风暴”。
  佛罗里达风暴之后不久,也就是2004年的一月,Google又进行了一次巨大的算法更新。因为这次更新是从位于得克萨斯州的奥斯汀(Austin)的Google数据中心开始的,所以这次更新被冠以“奥斯汀风暴”。奥斯汀风暴被看作是佛罗里达风暴的余震。
  Google dance存在的意义
  Google dance 是Google完善自己的算法、反对垃圾泛滥的努力。Google
dance出现之后,使许多SEO从业者开始反思如何正确地使用技术来优化网站。只要你的网站没有作弊或者使用什么不好的技术,那就不怕Google
Dance,所以,即使有一天你突然发现你的网站排名突然后退很多或者在Google上找不到了,也不要太担心,因为可能是Google在翩翩起舞。
已投稿到:Posts - 54,
Articles - 0,
Comments - 103
艰难地走在操作系统开发的道路上
20:36 by Hundre, ... 阅读,
在说明ROTBOT文件的编写语法前先来了解几个重要的概念!
1. 什么是baiduspider?   baiduspider是Baidu搜索引擎的一个自动程序。它的作用是访问互联网上的html网页,建立索引数据库,使用户能在Baidu搜索引擎中搜索到贵网站的网页。     2. baiduspider为什么大量访问我的网页?   baiduspider访问您的网页后,会自动分析每个网页上的文字内容并记忆网页网址,然后其它网友才能通过百度搜索引擎找到您的网页。如果baiduspider不访问您的网页,那么所有通过baiduspider提供网页信息的搜索引擎都找不到您的网页,也就是说,其它网友在百度搜狐新浪雅虎Tom等几十个搜索网站都会找不到您的网页。   您可以到这里进一步了解搜索引擎。    3. baiduspider对一个网站服务器造成的访问压力如何?    对于一个网站,baiduspider每访问一个网页会间隔30秒,不会造成过大压力。    4. 我不想我的网站被baiduspider访问,我该怎么做?    baiduspider象其它spider一样遵守互联网robots协议。您可以利用robots.txt文件完全禁止baiduspider访问您的网站,或者禁止baiduspider访问您网站上的部分文件。    注意:禁止baiduspider访问您的网站,将使您的网站上的所有网页,在Baidu搜索引擎以及所有Baidu提供搜索引擎服务的搜索引擎中无法被搜索到,包括搜狐、新浪、雅虎、Tom、Lycos等几十个搜索引擎。    关于robots.txt的写作方法,请参看我们的介绍:robots.txt写作方法    5. 为什么我的网站已经加了robots.txt,还能在百度搜索出来?    因为搜索引擎索引数据库的更新需要时间。虽然baiduspider已经停止访问您网站上的网页,但Baidu搜索引擎数据库中已经建立的网页索引信息,可能需要2到4周才会清除。    6. baiduspider多长时间之后会重新抓取我的网页?    Baidu搜索引擎平均两周更新一次,网页视重要性有不同的更新率,少则几天,多则1月,baiduspider会重新访问和更新一个网页。    7. baidu蜘蛛在robots.txt中的名字是什么?    baiduspider,全部为小写字母。完全禁止baiduspider访问的robots文件内容为:      User-agent: baiduspider  Disallow: /       robots.txt的语法
  “robots.txt“文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:       “&field&:&optionalspace&&value&&optionalspace&“。   在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:   User-agent:       该项的值用于描述搜索引擎robot的名字,在“robots.txt“文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在“robots.txt“文件中, “User-agent:*“这样的记录只能有一条。   Disallow :       该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如“Disallow: /help“对/help.html 和/help/index.html都不允许搜索引擎访问,而“Disallow: /help/“则允许robot访问/help.html,而不能访问/help/index.html。     任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在“/robots.txt“文件中,至少要有一条Disallow记录。如果 “/robots.txt“是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。   下面是一些robots.txt基本的用法:   l 禁止所有搜索引擎访问网站的任何部分:   User-agent: *   Disallow: /   l 允许所有的robot访问   User-agent: *   Disallow:   或者也可以建一个空文件 “/robots.txt“ file   l 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)   User-agent: *   Disallow: /cgi-bin/   Disallow: /tmp/   Disallow: /private/   l 禁止某个搜索引擎的访问(下例中的BadBot)   User-agent: BadBot   Disallow: /   l 只允许某个搜索引擎的访问(下例中的WebCrawler)   User-agent: WebCrawler   Disallow:     User-agent: *   Disallow: /   3、 常见搜索引擎机器人Robots名字     名称 搜索引擎   Baiduspider
  Scooter
  ia_archiver
  Googlebot
  FAST-WebCrawler
  MSNBOT
    4、 robots.txt举例   下面是一些著名站点的robots.txt:   n.com/robots.txt    /robots.txt   /robots.txt   /robots.txt   /robots.txt   5、 常见robots.txt错误   l 颠倒了顺序:   错误写成   User-agent: *   Disallow: GoogleBot     正确的应该是:   User-agent: GoogleBot   Disallow: *   l 把多个禁止命令放在一行中:   例如,错误地写成   Disallow: /css/ /cgi-bin/ /images/     正确的应该是   Disallow: /css/   Disallow: /cgi-bin/   Disallow: /images/   l 行前有大量空格   例如写成   Disallow: /cgi-bin/   尽管在标准没有谈到这个,但是这种方式很容易出问题。   l 404重定向到另外一个页面:   当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。   l 采用大写。例如   USER-AGENT: EXCITE   DISALLOW:   虽然标准是没有大小写的,但是目录和文件名应该小写:   user-agent:GoogleBot   disallow:   l 语法中只有Disallow,没有Allow!   错误的写法是:   User-agent: Baiduspider   Disallow: /john/   allow: /jane/   l 忘记了斜杠/   错误的写做:   User-agent: Baiduspider   Disallow: css     正确的应该是   User-agent: Baiduspider   Disallow: /css/   下面一个小工具专门检查robots.txt文件的有效性:   /cgi-bin/robotcheck.cgi   二、 Robots META标签   1、什么是Robots META标签       Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。具体的形式类似(见黑体部分):         &title&时代营销--网络营销专业门户&/title&   &meta name=“Robots“ content=“index,follow“&   &meta http-equiv=“Content-Type“ CONTENT=“text/ charset=gb;&   &meta name=“keywords“ content=“营销… “&   &meta name=“description“ content=“时代营销网是…“&   &link rel=“stylesheet“ href=“/public/css.css“ type=“text/css“&         …         2、Robots META标签的写法:   Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。   INDEX 指令告诉搜索机器人抓取该页面;   FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;   Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。   这样,一共有四种组合:   &META NAME=“ROBOTS“ CONTENT=“INDEX,FOLLOW“&   &META NAME=“ROBOTS“ CONTENT=“NOINDEX,FOLLOW“&   &META NAME=“ROBOTS“ CONTENT=“INDEX,NOFOLLOW“&   &META NAME=“ROBOTS“ CONTENT=“NOINDEX,NOFOLLOW“&   其中   &META NAME=“ROBOTS“ CONTENT=“INDEX,FOLLOW“&可以写成   &META NAME=“ROBOTS“ CONTENT=“ALL“&;   &META NAME=“ROBOTS“ CONTENT=“NOINDEX,NOFOLLOW“&可以写成   &META NAME=“ROBOTS“ CONTENT=“NONE“&   需要注意的是:上述的robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。   目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:   &META NAME=“googlebot“ CONTENT=“index,follow,noarchive“&   表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照}

我要回帖

更多关于 robots.txt规则 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信