robots sally是什么意思人名思

点击联系发帖人 时间：2016-09-03 03:02

draw是什么意思

后使用快捷导航没有帐号？
查看: 670|回复: 3
Robots.txt写法和放在哪里详解
本帖最后由李孝猛于
23:25 编辑
1、什么是Robots，熟练掌握Robots的基础语法，写出你对本节课的理解
Robots是指网站与搜索引擎之间的协议，下列三小点是需要自己记住的：
1.Robots是存放在网站根目录
2.Robots.txt是放在网站根目录
3.robots.txt文件名是不可修改的
4.Robots也是百度蜘蛛第一先抓取的
2、robots形式及定义：
User-agent: Baiduspider& &（定义所有的百度蜘蛛）
Disallow: /
User-agent：& &定义所有的蜘蛛
Baiduspider：&&百度蜘蛛
Googlebot：& & 谷歌机器人
MSNBot：& && & msn机器
Baiduspider-image：百度图片
Disallow: 定义那些文件可以抓取，那些文件不可以抓取
Allow:允许
小结：网站优化必须要有robots，robots格式区分大小的，区分大小写格式为：Disallow 首字母必须是大写的，在本地新建记事本编辑时需要注意的是：输入法中文要切换成英文，例如：
同时需要注意的是：在编辑时Disallow: / 要空一格如下图所示
*：定义所有的蜘蛛&&通配符
/ ：通配符&&拒绝百度蜘蛛访问访问网站根目录的文件，就是全部的意思
Robots生效时间是多少，是由百度决定的，有可能是1个月或者2个月
附注：放行也是需要生效时间的
$ ：结束符
附注：同时也需要注意的是，网站动态的路径也要用robots进行屏蔽，在这个前提需要做的是，要了解每个文件下的数据是用来做什么用的，代表什么意思，自己下面也知道如何运用robots进行操作。对robots还是不能理解的，可以点击我的博客：&div class=&blockcode&&&blockquote&&a href=&&&SEO研究中心之robots的制作和特殊符号含义&/a&复制代码。
Disallow: /data（一个是文件夹、一个是目录）& &禁止以data开头的文件或文件夹& &/data.html /dataaaa.html /data/aaa.html& & 根目录下的文件是不能访问的
Disallow: /data/ (拒绝目录的) 禁止文件夹 /data/aaa.html& &能访问/data.html /dataaaa.html
2、为你在基础操作的网站加上robots
User-agent: *& &（定义所有的蜘蛛）
Disallow: /plus/ad_js.php& & （拒绝目录/plus/能访问ad_js.php）
Disallow: /plus/advancedsearch.php&&
Disallow: /plus/car.php&&
Disallow: /plus/carbuyaction.php&&
Disallow: /plus/shops_buyaction.php&&
Disallow: /plus/erraddsave.php&&
Disallow: /plus/posttocar.php&&
Disallow: /plus/disdls.php&&
Disallow: /plus/feedback_js.php&&
Disallow: /plus/mytag_js.php&&
Disallow: /plus/rss.php& &
Disallow: /plus/search.php& &
Disallow: /plus/recommend.php& &
Disallow: /plus/stow.php& &
Disallow: /plus/count.php& &
Disallow: /include& &
Disallow: /templets& &
(8.05 KB, 下载次数: 1)
23:22 上传
(9.4 KB, 下载次数: 0)
23:22 上传
输入法切换成英文
(12.08 KB, 下载次数: 0)
23:23 上传
robots.txt编写格式
要灵活运用通配符，能够更精简
写的很好，还带图片吻合顶上去
写的很好，还带图片吻合顶上去
多谢，会继续努力的。这段日志是什么意思_robots.txt吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名：今日本吧第个签到，本吧因你更精彩，明天继续来努力！
本吧签到人数：0可签7级以上的吧50个
本月漏签0次！成为超级会员，赠送8张补签卡连续签到：天&&累计签到：天超级会员单次开通12个月以上，赠送连续签到卡3张
关注：39贴子：
这段日志是什么意思
　　45.79.95.64-[24/Sep/:18+0800]GET /robots.txt HTTP/1.120085 ( Uptimebot/1.0; +)　　45.79.95.64-[24/Sep/:18+0800]HEAD / HTTP/1.1200- ( Uptimebot/1.0; +)这个IP是干嘛的
还有这个 / 什么鬼
缺牙要及时修复，揭秘种植牙如何做到几十年不掉？
贴吧热议榜
使用签名档&&
保存至快速回贴&人参与 | 时间：日 10:09
日北京市第一中级人民法院正式受理了诉奇虎360违反“Robots协议”抓取、复制其网站内容的不正当竞争行为一案，索赔金额高达一亿元，这可以看做2012年下半年“”的继续。在此次索赔案件中，百度称自己的Robots文本中已设定不允许360爬虫进入，而360的爬虫依然对“百度知道”、“百度百科”等百度网站内容进行抓取。其实早在2012年11月初，针对双方摩擦加剧的情况，在中国协会的牵头下，包括百度、新浪、奇虎360在内的12家互联网公司已共同签署了《互联网搜索引擎服务自律公约》，在公约第七条承诺“遵循国际通行的行业惯例与商业规则，遵守机器人协议(robots协议)。今天就找个机会聊聊一夜成名的。初识robots协议什么是robots要了解robots协议首先要了解robots，本文说的robots不是《I，robot》里的威尔·史密斯，不是《机器人总动员》里的瓦力和伊娃，不是《终结者》系列中的施瓦辛格。什么?这些经典电影你都不知道?好吧，算我想多了。本文的robots特指搜索引擎领域的web robots，这个名字可能很多人不熟悉，但是提到Web Wanderers，Crawlers和Spiders很多人可能就恍然大悟了，在中文里我们统称为爬虫或者网络爬虫，也就是搜索引擎抓取互联网网页的程序。同学们都知道网页是通过超级链接互相关联起来的，从而形成了网页的网状结构。爬虫的工作方式就像蜘蛛在网上沿着链接爬来爬去，最基本的流程可以简化如下：1.喂给爬虫一堆url，我们称之为种子(seeds)2.爬虫抓取seeds，解析html网页，抽取其中的超级链接3.爬虫接着抓取这些新发现的链接指向的网页2，3循环往复什么是robots协议了解了上面的流程就能看到对爬虫来说网站非常被动，只有老老实实被抓取的份。存在这样的需求：1.某些路径下是个人隐私或者网站管理使用，不想被搜索引擎抓取，比如说日本爱情动作片2.不喜欢某个搜索引擎，不愿意被他抓取，最有名的就是之前淘宝不希望被百度抓取3.小网站使用的是公用的虚拟主机，流量有限或者需要付费，希望搜索引擎抓的温柔点4.某些网页是动态生成的，没有直接的链接指向，但是希望内容被搜索引擎抓取和索引网站内容的所有者是网站管理员，搜索引擎应该尊重所有者的意愿，为了满足以上等等，就需要提供一种网站和爬虫进行沟通的途径，给网站管理员表达自己意愿的机会。有需求就有供应，robots协议就此诞生。Robots协议，学名叫：The Robots Exclusion Protocol，就搜索引擎抓取网站内容的范围作了约定，包括网站是否希望被搜索引擎抓取，哪些内容不允许被抓取，把这些内容放到一个纯文本文件robots.txt里，然后放到站点的根目录下。爬虫抓取网站内容前会先抓取robots.txt，据此“自觉地”抓取或者不抓取该网页内容，其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。需要注意的是robots协议并非是规范，只是行业内一个约定俗成的协议。什么意思呢?Robots协议不是什么技术壁垒，而只是一种互相尊重的协议，好比私家花园的门口挂着“闲人免进”，尊重者绕道而行，不尊重者依然可以推门而入，比如说360。说了这么多，看几个有名的例子感觉一下先：例子1：User-agent: BaiduspiderDisallow: /User-agent: baiduspiderDisallow: /程序猿，你懂的。这不就是淘宝不想让百度抓取嘛例子2：User-agent: *Disallow: /?*Disallow: /pop/*.htmlUser-agent: EtaoSpiderDisallow: /这个也不复杂，京东有2个目录不希望所有搜索引擎来抓。同时，对etao完全屏蔽。基本玩法robots.txt的位置说简单也简单，robots.txt放到一个站点的根目录下即可。说复杂也有点小复杂，一个robots.txt只能控制相同协议，相同端口，相同站点的网页抓取策略。什么意思呢?看个例子最清楚：这两个robots.txt的内容是不同的，也就是说百度网页搜索和百度知道的抓取策略可以由自己独立的robots.txt来控制，井水不犯河水。robots.txt的内容最简单的robots.txt只有两条规则：1.User-agent：指定对哪些爬虫生效2.Disallow：指定要屏蔽的网址整个文件分为x节，一节由y个User-agent行和z个Disallow行组成。一节就表示对User-agent行指定的y个爬虫屏蔽z个网址。这里x&=0，y&0，z&0。x=0时即表示空文件，空文件等同于没有robots.txt。下面详细介绍这两条规则：User-agent爬虫抓取时会声明自己的身份，这就是User-agent，没错，就是http协议里的User-agent。robots.txt利用User-agent来区分各个引擎的爬虫。举例说明：google网页搜索爬虫的User-agent为Googlebot，下面这行就指定google的爬虫。User-agent：Googlebot如果想指定所有的爬虫怎么办?不可能穷举啊，可以用下面这一行：User-agent: *可能有的同学要问了，我怎么知道爬虫的User-agent是什么?这里提供了一个简单的列表：当然，你还可以查相关搜索引擎的资料得到官方的数据，比如说，DisallowDisallow 行列出的是要拦截的网页，以正斜线 (/) 开头，可以列出特定的网址或模式。要屏蔽整个网站，使用正斜线即可：Disallow: /要屏蔽某一目录以及其中的所有内容，在目录名后添加正斜线：Disallow: /无用目录名/要屏蔽某个具体的网页，就指出这个网页。Disallow: /网页.htmlDisallow还可以使用前缀和通配符。要屏蔽目录a1-a100，可以使用上面的方式写100行，或者Disallow：/a但是需要注意，这样会把任何以a开头的目录和文件也屏蔽，慎用。如果需要屏蔽a1-a100，但是不屏蔽a50，怎么办?同学们可以思考一下，这个问题我们留到下一节。要阻止特定类型的文件(如 .gif)，请使用以下内容：Disallow: /*.gif$*匹配任意个字符，$匹配url结束，具体就不解释了吧，不了解的同学去自学一下通配符。提示一下，Disallow的内容区分大小写。例如，Disallow: /junkfile.asp 会屏蔽 junkfile.asp，却会允许Junk_file.asp。最最后，通配符不是所有搜索引擎都支持，使用要小心。没办法，谁让robots.txt没有一个大家都承认的标准呢。实例 ###User-agent: BaiduspiderDisallow: /baiduDisallow: /s?User-agent: GooglebotDisallow: /baiduDisallow: /s?Disallow: /shifen/Disallow: /homepage/Disallow: /cproUser-agent: MSNBotDisallow: /baiduDisallow: /s?Disallow: /shifen/Disallow: /homepage/Disallow: /cpro...现在读懂这个应该毫无压力了吧，顺便说一句百度的robots.txt比较啰嗦，有兴趣的同学可以简化一下。高阶玩法首先声明：高级玩法不是所有引擎的爬虫都支持，一般来说，作为搜索引擎技术领导者的谷歌支持的最好。例子：allow还记得上面的问题吗?如果需要屏蔽a1-a100，但是不屏蔽a50，怎么办?方案1：Disallow：/a1/Disallow：/a2/...Disallow：/a49/Disallow：/a51/...Disallow：/a100/方案2：Disallow：/aAllow:/a50/ok，allow大家会用了吧。顺便说一句，如果想屏蔽a50下面的文件private.html，咋整?Disallow：/aAllow:/a50/Disallow：/a50/private.html聪明的你一定能发现其中的规律，对吧?谁管的越细就听谁的。sitemap前面说过爬虫会通过网页内部的链接发现新的网页。但是如果没有连接指向的网页怎么办?或者用户输入条件生成的动态网页怎么办?能否让网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页?这就是sitemap，最简单的 Sitepmap 形式就是 XML 文件，在其中列出网站中的网址以及关于每个网址的其他数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度等等)，利用这些信息搜索引擎可以更加智能地抓取网站内容。sitemap是另一个话题，足够开一篇新的文章聊的，这里就不展开了，有兴趣的同学可以参考新的问题来了，爬虫怎么知道这个网站有没有提供sitemap文件，或者说网站管理员生成了sitemap，(可能是多个文件)，爬虫怎么知道放在哪里呢?由于robots.txt的位置是固定的，于是大家就想到了把sitemap的位置信息放在robots.txt里。这就成为robots.txt里的新成员了。节选一段：Sitemap: /culturalinstitute/sitemaps/www_google_com_culturalinstitute/sitemap-index.xmlSitemap: /hostednews/sitemap_index.xml插一句，考虑到一个网站的网页众多，sitemap人工维护不太靠谱，google提供了工具可以自动生成sitemap。meta tag其实严格来说这部分内容不属于robots.txt，不过也算非常相关，我也不知道放哪里合适，暂且放到这里吧。robots.txt的初衷是为了让网站管理员管理可以出现在搜索引擎里的网站内容。但是，即使使用 robots.txt 文件让爬虫无法抓取这些内容，搜索引擎也可以通过其他方式找到这些网页并将它添加到索引中。例如，其他网站仍可能链接到该网站。因此，网页网址及其他公开的信息(如指向相关网站的链接中的定位文字或开放式目录管理系统中的标题)有可能会出现在引擎的搜索结果中。如果想彻底对搜索引擎隐身那咋整呢?答案是：元标记，即meta tag。比如要完全阻止一个网页的内容列在搜索引擎索引中(即使有其他网站链接到此网页)，可使用 noindex 元标记。只要搜索引擎查看该网页，便会看到 noindex 元标记并阻止该网页显示在索引中，这里注意noindex元标记提供的是一种逐页控制对网站的访问的方式。举例：要防止所有搜索引擎将网站中的网页编入索引，在网页的部分添加：&meta name=&robots& content=&noindex&&这里的name取值可以设置为某个搜索引擎的User-agent从而指定屏蔽某一个搜索引擎。除了noindex外，还有其他元标记，比如说nofollow，禁止爬虫从此页面中跟踪链接。详细信息可以参考，这里提一句：noindex和nofollow在规范里有描述，但是其他tag的在不同引擎支持到什么程度各不相同，还请读者自行查阅各个引擎的说明文档。Crawl-delay除了控制哪些可以抓哪些不能抓之外，robots.txt还可以用来控制爬虫抓取的速率。如何做到的呢?通过设置爬虫在两次抓取之间等待的秒数。Crawl-delay:5表示本次抓取后下一次抓取前需要等待5秒。注意：google已经不支持这种方式了，在webmaster tools里提供了一个功能可以更直观的控制抓取速率。这里插一句题外话，几年前我记得曾经有一段时间robots.txt还支持复杂的参数:Visit-time，只有在visit-time指定的时间段里，爬虫才可以访问;Request-rate: 用来限制URL的读取频率，用于控制不同的时间段采用不同的抓取速率。后来估计支持的人太少，就渐渐的废掉了，有兴趣的同学可以自行google。我了解到的是目前google和baidu都已经不支持这个规则了，其他小的引擎公司貌似从来都没有支持过。如果确有支持那是我孤陋寡闻了，欢迎留言告知。真的有用?好吧，到此为止robots.txt相关的东东介绍的也七七八八了，能坚持看到这里的同学估计都跃跃欲试了，可惜，我要泼盆冷水，能完全指望robots.txt保护我们网站的内容吗?不一定。否则百度和360就不用打官司了。协议一致性第一个问题是robots.txt没有一个正式的标准，各个搜索引擎都在不断的扩充robots.txt功能，这就导致每个引擎对robots.txt的支持程度各有不同，更不用说在某个功能上的具体实现的不同了。缓存第二个问题是robots.txt本身也是需要抓取的，出于效率考虑，一般爬虫不会每次抓取网站网页前都抓一下robots.txt，加上robots.txt更新不频繁，内容需要解析。通常爬虫的做法是先抓取一次，解析后缓存下来，而且是相当长的时间。假设网站管理员更新了robots.txt，修改了某些规则，但是对爬虫来说并不会立刻生效，只有当爬虫下次抓取robots.txt之后才能看到最新的内容。尴尬的是，爬虫下次抓取robots.txt的时间并不是由网站管理员控制的。当然，有些搜索引擎提供了web 工具可以让网站管理员通知搜索引擎那个url发生了变化，建议重新抓取。注意，此处是建议，即使你通知了搜索引擎，搜索引擎何时抓取仍然是不确定的，只是比完全不通知要好点。至于好多少，那就看搜索引擎的良心和技术能力了。ignore第三个问题，不知是无意还是有意，反正有些爬虫不太遵守或者完全忽略robots.txt，不排除开发人员能力的问题，比如说根本不知道robots.txt。另外，本身robots.txt不是一种强制措施，如果网站有数据需要保密，必需采取技术措施，比如说：用户验证，加密，ip拦截，访问频率控制等。偷偷的抓第四个问题，即使采用了种种限制，仍然存在某些恶意的抓取行为能突破这些限制，比如一些利用肉鸡进行的抓取。悲观的说，只要普通用户可以访问，就不能完全杜绝这种恶意抓取的行为。但是，可以通过种种手段使抓取的代价增大到让对方无法接受。比如说：， Ajax用户行为驱动的异步加载等等。这个就不属于本文讨论的范畴了。泄密最后，robots.txt本身还存在泄密的风险。举例，如果某一个网站的robots.txt里突然新增了一条：Disallow /map/，你想到了什么?是不是要推出地图服务了?于是有好奇心的同学就会开始尝试各种文件名去访问该路径下的文件，希望能看到惊喜。貌似当初google的地图就是这么被提前爆出来的，关于这点我不太确定，大家就当八卦听听好了。工具参考资料文章来源：作者：桂南顶: 5踩: 3 来源：，欢迎分享，（QQ/微信：）
1楼&& 18:20:17 真心不错，前来学习，第一次接触robots。我说怎么我的博客，只收录首页，内页都不收录~顶: <ins data-digg="踩: <ins data-digg="
2楼&& 11:39:51 真心不错，前来学习，第一次接触robots。我说怎么我的博客，只收录首页，内页都不收录~顶: <ins data-digg="踩: <ins data-digg="
3楼&& 18:18:08 我的网站很长时间不收录了，我了解了之后，我添加了robots协议，不知道有没有用，所有的搜索引擎可以访问网站上的所有地址顶: <ins data-digg="踩: <ins data-digg="
4楼&& 19:17:33 robots很重要，目标关键词的优化技巧更重要顶: <ins data-digg="踩: <ins data-digg="
5楼&& 09:14:35 百度果然不遵循robots协议，我的网站Disallow文件夹，昨天我看日志记录，竟然还被抓了，郁闷。顶: <ins data-digg="踩: <ins data-digg="
6楼&& 23:21:37 恩，我想这篇文章对于想要了解robots的人来说帮了大忙了··非常的详细！顶: <ins data-digg="踩: <ins data-digg="
7楼&& 13:35:09 看完了还是很模糊啊，不知道有没有试机的案例顶: <ins data-digg="踩: <ins data-digg="
8楼&& 19:34:36 dede好像自带，从来没有改过，这个对小站没必要吧？顶: <ins data-digg="踩: <ins data-digg="
9楼&& 09:56:56 真心不错，虽然我现在才读到。顶: <ins data-digg="踩: <ins data-digg="
10楼&& 20:55:02 学习了顶: <ins data-digg="踩: <ins data-digg="
11楼&& 12:16:02 对于新站长来说这是必须了解的顶: <ins data-digg="踩: <ins data-digg="
12楼&& 10:09:54
有很多设置都不好随便设顶: <ins data-digg="踩: <ins data-digg="
13楼&& 16:49:26 写的很好，学习了！受教很喜欢你写的文章。顶: <ins data-digg="踩: <ins data-digg="
14楼&& 23:46:01 多花点时间了解网站的知识只有好处没坏处顶: <ins data-digg="踩: <ins data-digg="
15楼&& 09:08:06 这个像是一个版权声明一样；顶: <ins data-digg="踩: <ins data-digg="
16楼&& 16:41:41 好多字！一篇博文都够我花些时间去消化了。。顶: <ins data-digg="踩: <ins data-digg="
17楼&& 23:29:59 为啥淘宝不屏蔽gg的蜘蛛呢?按理说gg收录的页面比百度的肯定要多得多的。顶: <ins data-digg="踩: <ins data-digg="
18楼&& 18:50:16 百度本身就让人匪夷所思！顶: <ins data-digg="踩: <ins data-digg="
19楼&& 18:49:45 不知道实施的情况如何顶: <ins data-digg="踩: <ins data-digg="
20楼&& 15:13:25 你说的这是什么呀，没明白，也不懂顶: <ins data-digg="踩: <ins data-digg="
21楼&& 09:52:46 robots协议还是值得学习的顶: <ins data-digg="踩: <ins data-digg="
22楼&& 08:42:13 小网站根本用不到，只有大网站才用的到。顶: <ins data-digg="踩: <ins data-digg="
23楼&& 08:38:22 看来还是要学习啊。顶: <ins data-digg="踩: <ins data-digg="
24楼&& 16:28:04 我也感觉到了，我就觉得奇怪，360里面好多内容和百度是一模一样的，比如360百科什么的。不过我现在是希望我的网站都被抓取，什么搜索引擎都来，哈哈顶: <ins data-digg="踩: <ins data-digg="
25楼&& 08:17:05 这是一篇介绍robots的好文章，就是太长了。对我个人而言，作者能考虑下用户就好了。顶: <ins data-digg="踩: <ins data-digg="
26楼&& 22:10:08 说的非常好，非常的详细。顶: <ins data-digg="踩: <ins data-digg="
27楼&& 18:10:42 一口气看完了，这是我见过的好的分享资源。写的很好，我觉得文章有感染力。嘿嘿。顶: <ins data-digg="踩: <ins data-digg="
28楼&& 12:06:24 之前对于Robots文本不了解.....顶: <ins data-digg="踩: <ins data-digg="
29楼&& 21:46:33 有很多设置都不好随便设顶: <ins data-digg="踩: <ins data-digg="
30楼&& 20:46:56 代码太多看不懂顶: <ins data-digg="踩: <ins data-digg="
31楼&& 17:43:08 这个不错，拿我的站试试去顶: <ins data-digg="踩: <ins data-digg="
32楼&& 15:03:13 还有好多地方需要学习的啊顶: <ins data-digg="踩: <ins data-digg="
33楼&& 14:24:35 我擦，内容挺多啊。顶: <ins data-digg="踩: <ins data-digg="
34楼&& 13:34:09 对robots协议了解的不是很多顶: <ins data-digg="踩: <ins data-digg="
35楼&& 10:25:05 个人觉得，robots协议大多数小网站都用不上，只有大企业门户，或者电商才有用的顶: <ins data-digg="踩: <ins data-digg="
36楼&& 10:09:40 恩，我想这篇文章对于想要了解robots的人来说帮了大忙了··非常的详细！顶: <ins data-digg="踩: <ins data-digg="
37楼&& 09:28:50 robots有这么多写法规则啊，要定义那些页面不允许抓取就不好弄了。顶: <ins data-digg="踩: <ins data-digg="
38楼&& 09:23:45 这个还真幽默！顶: <ins data-digg="踩: <ins data-digg="
39楼&& 08:51:51 我也是运营现在这个站才使用ROBOTS协议，之前都没有用过。不过个人感觉ROBOTS不错。顶: <ins data-digg="踩: <ins data-digg="
40楼&& 23:52:08 分析非常细致！关于使用“通配符”时，能写点具体例子更好顶: <ins data-digg="踩: <ins data-digg="
41楼&& 22:13:12 以前就大概了解了，看了之后会更深入的了解并理解顶: <ins data-digg="踩: <ins data-digg="
42楼&& 21:20:31 没注意协议~~~~顶: <ins data-digg="踩: <ins data-digg="
43楼&& 20:41:31 这篇文章很及时，谢谢了。顶: <ins data-digg="踩: <ins data-digg="
44楼&& 20:37:16 来了解一下具体情况顶: <ins data-digg="踩: <ins data-digg="
45楼&& 19:09:14 我也来写个博客看看顶: <ins data-digg="踩: <ins data-digg="
46楼&& 18:11:07 基本没怎么注意这个协议顶: <ins data-digg="踩: <ins data-digg="
47楼&& 17:02:01 看完了，查不到懂了，其实之前会写robots.txt的，卢松松说的比较详细，学习了，一会试试能不能屏蔽掉动态小尾巴！顶: <ins data-digg="踩: <ins data-digg="
48楼&& 16:25:51 学习了，松松老师！顶: <ins data-digg="踩: <ins data-digg="
49楼&& 16:00:02 我的robots都是网上直接copy一段，不知道不想要蜘蛛抓取的链接是不是DISFOLLOW：后面加一个域名就不会被抓取顶: <ins data-digg="踩: <ins data-digg="
50楼&& 15:31:35 robots，多网站SEO基本上没用。最多只是禁止爬行，保护一些用户数据而已！顶: <ins data-digg="踩: <ins data-digg="
51楼&& 14:36:48 学习了，他们是久不久的要干一仗顶: <ins data-digg="踩: <ins data-digg="
52楼&& 13:30:04 这个我可以学会。。。顶: <ins data-digg="踩: <ins data-digg="
53楼&& 13:22:46 其实可以看出来百度蜘蛛是很容易被引诱的顶: <ins data-digg="踩: <ins data-digg="
54楼&& 13:19:14 还是不能完全理解，顶: <ins data-digg="踩: <ins data-digg="
55楼&& 12:52:26 抓去不一定收录顶: <ins data-digg="踩: <ins data-digg="
56楼&& 11:09:32 360连robots都不遵守，还谈什么安全顶: <ins data-digg="踩: <ins data-digg="
57楼&& 10:30:38 我感觉就算屏蔽了，百度照样能抓取~~顶: <ins data-digg="踩: <ins data-digg="
58楼&& 10:07:46 松哥的博客人气还是那么高，来支持下有换链接的可以联系我顶: <ins data-digg="踩: <ins data-digg="
59楼&& 09:21:03 不错的博文，弄明白原理，站长自己就可以写robots了。顶: <ins data-digg="踩: <ins data-digg="
60楼&& 09:19:15 关于robots介绍的很详细，学习了。顶: <ins data-digg="踩: <ins data-digg="
61楼&& 08:35:00 好文章顶: <ins data-digg="踩: <ins data-digg="
62楼&& 23:37:34 玩这个都没什么用顶: <ins data-digg="踩: <ins data-digg="
63楼&& 22:56:44 做网站做成大佬了就不用考虑这些吧！顶: <ins data-digg="踩: <ins data-digg="
64楼&& 22:38:54
就这个还赔偿1亿元啊，果然值钱顶: <ins data-digg="踩: <ins data-digg="
65楼&& 21:49:11 淘宝京东在百度上随便都能搜索到相关商品。顶: <ins data-digg="踩: <ins data-digg="
66楼&& 19:17:24 来学习啦松松哥顶: <ins data-digg="踩: <ins data-digg="
67楼&& 17:21:58 我错了应该是这样高的啊顶: <ins data-digg="踩: <ins data-digg="
68楼&& 17:21:14 这确实是很不错的东西啊好好学习了顶: <ins data-digg="踩: <ins data-digg="
69楼&& 16:40:33 怎么不抓点儿我的需要蜘蛛来抓啊顶: <ins data-digg="踩: <ins data-digg="
70楼&& 16:25:44 我想问一下，一个网站二级域名超多，并且每个二级域名都是不同的服务内容，那么是不是每个二级域名都要单独设置robots，然后将robots放到二级域名的根目录下面去？还有sitemap是不是一样都放二级域名根目录下面呢？顶: <ins data-digg="踩: <ins data-digg="
71楼&& 16:23:26 深入学习一遍。。顶: <ins data-digg="踩: <ins data-digg="
72楼&& 15:38:03 root协议说起来简单，坐起来还真的挺难的啊顶: <ins data-digg="踩: <ins data-digg="
73楼&& 15:26:09 还不错，收藏了。。顶: <ins data-digg="踩: <ins data-digg="
74楼&& 15:20:07 松哥请问下，你那个软件下载站是用的什么模板，在哪里可以搞到，我也想做一个程序员资源下载的站，请不吝赐教，谢谢顶: <ins data-digg="踩: <ins data-digg="
75楼&& 15:19:16 这个知识很有用，只是自己只记住很少的部分。要慢慢来了。顶: <ins data-digg="踩: <ins data-digg="
76楼&& 15:13:08 专业性很强顶: <ins data-digg="踩: <ins data-digg="
77楼&& 15:12:25 额。。。。。。需要学习的还很多很多啊。顶: <ins data-digg="踩: <ins data-digg="
78楼&& 15:09:32 其实一个正规的站，robots协议还有必要写一个的。顶: <ins data-digg="踩: <ins data-digg="
79楼&& 14:35:22 百度果然不遵循robots协议，我的网站Disallow文件夹，昨天我看日志记录，竟然还被抓了，郁闷。顶: <ins data-digg="踩: <ins data-digg="
80楼&& 14:29:06 赞成你的说法顶: <ins data-digg="踩: <ins data-digg="
81楼&& 14:17:00 淘宝不是也屏蔽百度蜘蛛吧，百度搜索里面也可以找到淘宝的网址，只不过加了个备注！顶: <ins data-digg="踩: <ins data-digg="
82楼&& 14:14:41 这个不错，写的详细具体，非常实用！顶: <ins data-digg="踩: <ins data-digg="
83楼&& 14:02:47 话说百度最近又抽风了顶: <ins data-digg="踩: <ins data-digg="
84楼&& 12:50:52 马克一下，这个比较实用~~~顶: <ins data-digg="踩: <ins data-digg="
85楼&& 12:10:09 来的人不少啊！我也凑热闹！顶: <ins data-digg="踩: <ins data-digg="
86楼&& 11:58:35 那么多,一个亿呢! My God...顶: <ins data-digg="踩: <ins data-digg="
87楼&& 11:47:39 我博客下的是老卢的程序，默认没有这个。但老卢博客有。没有可有问题啊。谁能解答顶: <ins data-digg="踩: <ins data-digg="
88楼&& 11:39:03 学习robots协议顶: <ins data-digg="踩: <ins data-digg="
89楼&& 11:37:23 robots协议我猜除了谷歌、雅虎能够真正的遵守，其他的国内的搜索都未必会完全遵守。不过，我发现，添加了robots协议有个网站目录暴露的危险，你不想让搜索搜录某些目录，可是人能够看到这个robots，并且能够找到你的禁止收录的目录，对这，请教一下卢松松朋友，你怎么看？顶: <ins data-digg="踩: <ins data-digg="
90楼&& 11:31:56 科普了顶: <ins data-digg="踩: <ins data-digg="
91楼&& 11:15:51 狠狠抓取不一定就收录！！！看到抓取也别高兴太早！哈哈！顶: <ins data-digg="踩: <ins data-digg="
92楼&& 11:07:12 对于站点地图只写入xml像html的和txt的站点地图需要写入吗？顶: <ins data-digg="踩: <ins data-digg="
93楼&& 10:38:50 不错收藏学习了顶: <ins data-digg="踩: <ins data-digg="
94楼&& 10:34:12 这是一篇介绍robots的好文章，就是太长了。对我个人而言，作者能考虑下用户就好了。顶: <ins data-digg="踩: <ins data-digg="
94楼&& 14:29:06 赞成你的说法顶: <ins data-digg="踩: <ins data-digg="
95楼&& 10:20:43 哈哈！不过，我们倒是希望百度来抓取！狠狠的收录。顶: <ins data-digg="踩: <ins data-digg="
95楼&& 11:15:51 狠狠抓取不一定就收录！！！看到抓取也别高兴太早！哈哈！顶: <ins data-digg="踩: <ins data-digg="
96楼&& 10:12:46 额，好久没有沙发了，今天终于有机会了，不过好像百度不太遵守robots哦！顶: <ins data-digg="踩: <ins data-digg="
相关文章阅读更多：&&&&
(window.slotbydup=window.slotbydup || []).push({
id: '2398769',
container: s,
size: '300,250',
display: 'inlay-fix'
点赞最多 317024481552140510501048
最近活动攻略通知喜讯}

叫阿莫西中心