请问robots.txt文件这样写正确吗

今天沈阳SEO为大家带来的是robots.txt的正确写法及一些需要我们注意的问题,一个网站要想让蜘蛛正常访问抓取一个重要的因素就是robots,因为robots协议是网站和搜索引擎的协议文件,他会告诉蜘蛛网站的哪些文件可以抓取,哪些文件不可以抓取。
因为,蜘蛛爬行网站时的首先就要访问的robots文件的,所以,robots写的是否准确直接决定网站是否能被蜘蛛正常抓取。robots文件是在上线之前就应该写好的,写好以后放到网站根目录上就可以了。下面沈阳SEO就给大家详细的一下robots文件的正确写法:
一、robots语法
首先先给大家介绍几个robots中用到的名词:
1、User-agent:意思是定义搜索引擎类型
因为搜索引擎有好几种有:百度蜘蛛:Baiduspider;谷歌蜘蛛:Googlebot;360蜘蛛:360Spider;SOSO蜘蛛:Sosospider;有道蜘蛛:YoudaoBot;搜狗蜘蛛:Sogou News Spider
一般没有特殊要求的话,正确写法是:User-agent: *
意思是允许所有搜索引擎来抓取。这是robots.txt文件中第一行的写法。
2、Disallow:意思是定义禁止抓取的地址
就是禁止蜘蛛抓取的地址,在我们的网站是静态或伪静态的时候一般网站要禁止蜘蛛抓取动态路径(?)、.js、后台的文件等一些不想让蜘蛛抓取的文件。我拿我的博客站为例,它的正确的写法如下:
Disallow: /
禁止蜘蛛抓取整站(一定不能这么写)
Disallow: /wp-admin/
禁止抓取网站中带wp-admin的文件夹。
Disallow: /page/
禁止抓取网站中带page的文件夹。
Disallow: /*?*
禁止抓取网站中的所有动态路径。
Disallow: /.js$
禁止抓取网站中的所有带.js的路径。
Disallow: /*.jpeg$
禁止抓取网站中所有jpeg图片
3、Allow:意思是定义允许抓取收录地址
这个就不需要多说了就是允许的意思,在robots文件中不写Allow意思就是默认的允许。大家不必再写了。
4、认识一些语法符号
/ 如果只是一个单个/,搜索引擎会认为是根目录
* 是所有的意思;例如:Disallow: /*.jpeg$ 是禁止抓取网站中所有jpeg图片
$ 是结束符
二、什么情况下使用
1、可以屏蔽死链接
2、可以屏蔽无内容页面和重复页面(统一路径 动态和静态)
3、可以屏蔽多路径的同一页面
4、中文链接
5、根据情况,不想让网站收的文件 隐私文件 会员
三、需要注意的细节:
1、一定不要写绝对路径,就是不要带我们网站域名。用/代替就可以。
2、注意robots文件中的所有符号都是在英文状态下写的,比如:Disallow: /wp-admin/ 中“:”是英文状态下的。
3、注意空格;例如:Disallow: /wp-admin/
中":"后面紧跟着是一个空格;
4、注意大小写;例如:Disallow: /wp-admin/中Disallow的“D”是大写的。
5、robots是有生效时间的,是由百度决定的,几天或者两个月以内,所以,一定不要随便屏蔽整站。
6、还有一点要弄清楚的就是:
Disallow: /help
意思是禁止蜘蛛访问/help.html、/helpabc.html、/help/index.html所有的带help的文件及文件夹。
Disallow: /help/则是禁止蜘蛛访问/help/index.html这种形式的路径,允许访问/help.html、/helpabc.html,这两个是不一样的,大家要记清楚。
上述的就是今天沈阳SEO为大家分享的robots.txt正确的写法和要注意的问题,这也是操作的一项重要的优化操作,希望大家都能学会。感谢大家阅读!
版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明: |
沈阳SEO相关文章
沈阳网站优化博客
沈阳网站优化博主
&&&&&&&沈阳SEO是由博主根据亲身体验总结出来的,献给网络所有喜欢学习和热爱实践的SEOer,同时也欢迎各位加入我们的交流群进行交流,本博主是一个致力于分享SEO技术分享,SEO基础入门教程,SEO教程视频,建站教程等一些个人心得体会,分享给大家,是一个有价值,值得您收藏SEO博客.点击进入沈阳SEO交流群:
最新沈阳SEO文章
沈阳SEO文章目录
沈阳SEO随机文章
沈阳SEO热门文章
扫描二维码关注公众号robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
&&field&:&optional space&&value&&optionalspace&&
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:
User-agent:该项的值用于描述搜索引擎robot的名字。在&robots.txt&文件中,如果有多条User-agent记录说明有多个robot会受到&robots.txt&的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在&robots.txt&文件中,&User-agent:*&这样的记录只能有一条。如果在&robots.txt&文件中,加入&User-agent:SomeBot&和若干Disallow、Allow行,那么名为&SomeBot&只受到&User-agent:SomeBot&后面的 Disallow和Allow行的限制。
Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如&Disallow:/help&禁止robot访问/help.html、/helpabc.html、/help/index.html,而&Disallow:/help/&则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。&Disallow:&说明允许robot访问该网站的所有url,在&/robots.txt&文件中,至少要有一条Disallow记录。如果&/robots.txt&不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。
Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如&Allow:/hibaidu&允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。
使用&*&and&$&:Baiduspider支持使用通配符&*&和&$&来模糊匹配url。
&*& 匹配0或多个任意字符
&$& 匹配行结束符。最后需要说明的是:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。iseo点评:关于百度遵守robot协议也是有生效时间的,不止一个案例发现百度抓取robots屏蔽的文件抓的很凶,甚至robots屏蔽的页面被收录,没有屏蔽的反而一个不收录。 iseo(woiseo)
 文章为作者独立观点,不代表大不六文章网立场
woiseoSEO技术的分享者,SEO技术交流总结平台。热门文章最新文章woiseoSEO技术的分享者,SEO技术交流总结平台。&&&&违法和不良信息举报电话:183-
举报邮箱:Copyright(C)2017 大不六文章网只需一步,快速开始
查看: 161|回复: 0
阅读权限70
在线时间 小时
签到天数: 367 天连续签到: 4 天[LV.9]CEO
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
才可以下载或查看,没有帐号?
怎么正确撰写robots文件?首先我们来了解下robots文件,它是一个纯文本文件,主要是为搜索引擎蜘蛛准备的,与用户关系不大,它是蜘蛛访问网站首先查看的文件,就是网站和蜘蛛之间的一个协议,告诉哪些网页可收录,哪些不允许收录。
& & & & & & & & & & & & & & & & robots文件用途:robots.txt是百度蜘蛛会遵循协议,通过根目录创建的robots.txt,可以声明哪些页面不想被百度蜘蛛爬行并收录,每个网站可以自行控制网站哪些被百度蜘蛛收录,或指定百度蜘蛛能收录指定的内容。当百度蜘蛛访问站点时,首先它会检查该站点根目录下是否存在robots.txt,如果该文件不存在,那么爬虫就沿着链接抓取,如果存在,爬虫就在该文件中的限制内容以外访问。robots通常屏蔽内容:屏蔽隐私页面,后台登陆页面,缓存页面,图片目录,css目录,模板页面等内容,或者屏蔽一些不想传递权重的页面可以通过Disallow命令来进行设置。robots文件 设置的格式:  User-agent: 定义搜索引擎的类型  Crawl-delay: 定义抓取延迟  Disallow:定义禁止搜索引擎收录的地址  Allow: 定义允许搜索引擎收录的地址& && & Sitemap:网站地图
robots文件撰写注意事项:如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。必须命名为:robots.txt,都是小写,robot后面加”s”。robots.txt必须放置在一个站点的根目录下。一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow。有几个禁止,就得有几个Disallow函数,并分行描述。至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写isallow: / (注:只是差一个斜杆)。注意空格,Disallow:&&/,Disallow和/之间有无空格那是天壤之别。
& && &&&文章来源:/course/cjcourse/91.html
a. 回帖是一种美德,也是对楼主发帖的尊重和支持;
&&&&如果通过本帖信息与他人联系,请说明来自推一把论坛!推一把微信公众号:tui18com
b. 请不要发表违反中华人民共和国法律的内容。本站所有帖子属会员个人意见,与本站立场无关.
&&&&帖子内容版权归属作者所有,如是转贴版权归属原作者所有,其他单位或个人在使用或转载帖子&&&&内容时须征得帖子作者的同意或注明内容原出处。
在线时间 小时
签到天数: 79 天连续签到: 1 天[LV.6]经理
提示: 作者被禁止或删除 内容自动屏蔽
在线时间 小时
签到天数: 92 天连续签到: 1 天[LV.6]经理
提示: 作者被禁止或删除 内容自动屏蔽
青丘帝姬凤九 该用户已被删除
提示: 作者被禁止或删除 内容自动屏蔽
在线时间 小时
签到天数: 74 天连续签到: 1 天[LV.6]经理
提示: 作者被禁止或删除 内容自动屏蔽
在线时间 小时
签到天数: 66 天连续签到: 1 天[LV.6]经理
提示: 作者被禁止或删除 内容自动屏蔽
阅读权限70
在线时间 小时
签到天数: 161 天连续签到: 1 天[LV.7]总监
说的很不错的样子啊。
推一把微信公众号:tui18com||京公网安备
论坛事务(9:30-17:00):
|广告合作(9:30-17:00):
承载数据运行(|)下面的robots.txt文件是正确的吗 有没有限制抓取 # # robots.txt for-学网-中国IT综合门户网站-提供健康,养生,留学,移民,创业,汽车等信息
> 信息中心 >
下面的robots.txt文件是正确的吗 有没有限制抓取 # # robots.txt for
来源:互联网 发表时间: 6:51:55 责任编辑:李志喜字体:
为了帮助网友解决“下面的robots.txt文件是正确的吗 有没有限制抓取 # # robots.txt for”相关的问题,学网通过互联网对“下面的robots.txt文件是正确的吗 有没有限制抓取 # # robots.txt for”相关的解决方案进行了整理,用户详细问题包括:
面的admin&#47.txt for LINGCMS # Version 2: &#47: 6 Disallow.1 # User-agent: * Crawl-delay.txt文件是正确的吗 有没有限制抓取 # # robots
,具体解决方案如下:解决方案1:看不懂 可以看看你的网站吗 我帮你详细的看一下解决方案2:
lz去http://www://www
3个回答2个回答3个回答3个回答1个回答4个回答3个回答2个回答4个回答1个回答1个回答1个回答1个回答1个回答1个回答1个回答1个回答1个回答1个回答
相关文章:
最新添加资讯
24小时热门资讯
Copyright © 2004- All Rights Reserved. 学网 版权所有
京ICP备号-1 京公网安备02号}

我要回帖

更多关于 robots.txt文件 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信