模拟百度蜘蛛抓取取量、爬取量和抓取的页面数之间有什么关系吗?

利用蜘蛛爬取跟踪分析网站整体信息 - 王朝网络 -
分享&&&&&当前位置: &&&&&&&&利用蜘蛛爬取跟踪分析网站整体信息&&&  做网站的基本都知道蜘蛛是什么,其实蜘蛛就是一个搜索引擎的爬取程序,用来收录网站,然后在搜索引擎里面搜索呈现出来的页面。利用搜索引擎蜘蛛的爬取跟踪我们可以从中得到很多意想不到的信息从而更利于我们优化网站。  1、 利用蜘蛛告诉我们死链接  死链接对于网站的危害是非常大的,我们都知道,可以使用 robots.txt来对其进行屏蔽,但如何找出这些链接成为我们很头疼的问题,而搜索引擎蜘蛛会告诉我们哪些是真正的死链接,当蜘蛛爬取到一个死链接网页的时候,会在IIS日志里返回一个404状态码,这个时候就是告诉我们,这个网面是不可访问的,是一个死链接,所以我们只要查看IIS日志我们就知道搜索引擎蜘蛛提示我们网站有哪些死链接,然后我们再用robots.txt屏蔽掉即可,这样就不会让死链接对我们的网站造成影响了。  2、利用蜘蛛爬取的数量详细分析网站整体情况  我们可以通过IIS日志查询每天搜索引擎蜘蛛访问我们网站的次数,并且可以知道它访问了我们哪些页面,我们可以根据蜘蛛每天的爬取量就可以算出每个月蜘蛛的平均抓取量,这样我们就可以进行对比。  提升蜘蛛爬取量有以下两个因素  1)外部链接质量和数量增加  外链数量越多,蜘蛛爬取次数也就越多,同样外链的质量和权重越高,蜘蛛抓取网站的次数也就会越多了。  2)网站文章质量和更新频率  网站文章质量越好,蜘蛛来爬取后放出文章的通过率就会越高,蜘蛛爬取的次数就会增加,同样的道理,更新频率越快,蜘蛛爬取的频率也会增加。  从以上可以得出,如果网站每个月蜘蛛的爬取量是增加的,那我们就可以判断出来是由哪个因素引起的,也可以肯定网站权重也是随着蜘蛛爬取量上长而上升的,反之,蜘蛛的爬取量减少了,也可以确定,网站权重会随之下降。所以每天都要记录IIS日志的蜘蛛爬取量,然后根据这个来做网站优化的调整。  3、根据IIS日志的蜘蛛爬取分析服务器的稳定性  蜘蛛爬取我们的网站,如果网站不稳定,访问出了问题,蜘蛛就会返回503或500这样的状态码,并且也会出现200 0 64 这样的状态码,如果出现这种情况,首先要确定是什么时间产生的,需要马上联系服务器商或空间商,这样就可以马上解决我们所存在的问题。  4、 利用IIS日志蜘蛛爬取深入分析  搜索引擎在爬取我们网站内容的时候,经常会出现有一些目录他在爬取之后就不再去重复爬取了,而有些目录甚至一些内页会重复的不断爬取,对于此我们可以根据IIS日志中蜘蛛的爬取情况作珍上整体分析或是对比,看那些爬取差的页面是因为什么原因造成的。比如有一个案例,用IIS日志发现蜘蛛喜欢不断抓取网站的新闻目录,而产品目录抓取得少,究其原因,发现这两个页面之间的相似程度达到了90%以上,像这样的重复性很高的页面就要注意了,一定要添加原创性内容,避免页面的相似程度过高而导致蜘蛛不来抓取。  从以上我们可以看出,我们非常有必要每天都要下载网站的IIS日志进行查看,以及时的发现问题并解决问题,以保证我们的优化不受影响。  以上由 常州骨科医院 / 网站运营人员整理发布。转载请注明!&&&&&今日推荐
&&&&&日版宠物情人2017的插曲,很带节奏感,日语的,女生唱的。
最后听见是在第8集的时候女主手割伤了,然后男主用嘴帮她吸了一下,插曲就出来了。
歌手:Def...老钟家的两个儿子很特别,就是跟其他的人不太一样,魔一般的执着。兄弟俩都到了要结婚的年龄了,不管自家老爹怎么磨破嘴皮子,兄弟俩说不娶就不娶,老父母为兄弟两操碎了心...把牛仔裤磨出有线的破洞
1、具体工具就是磨脚石,下面垫一个硬物,然后用磨脚石一直磨一直磨,到把那块磨薄了,用手撕开就好了。出来的洞啊很自然的。需要猫须的话调几...先来看下敬业福和爱国福
今年春节,支付宝再次推出了“五福红包”活动,表示要“把欠大家的敬业福都还给大家”。
今天该活动正式启动,和去年一样,需要收集“五福”...有时候我们打开冰箱就会闻到一股异味,冰箱里的这种异味是因为一些物质发出的气味的混合体,闻起来让人恶心。 产生这些异味的主要原因有以下几点。
1、很多人有这种习...简介
《极品家丁》讲述了现代白领林晚荣无意回到古代金陵,并追随萧二小姐化名“林三”进入萧府,不料却阴差阳错上演了一出低级家丁拼搏上位的“林三升职记”。...你就是我最爱的宝宝 - 李溪芮
(电视剧《极品家丁》片尾曲)
作词:常馨内
作曲:常馨内
你的眉 又鬼马的挑
你的嘴 又坏坏的笑
上一秒吵闹 下...乌梅,又称春梅,中医认为,乌梅味酸,性温,无毒,具有安心、除热、下气、祛痰、止渴调中、杀虫的功效,治肢体痛、肺痨病。乌梅泡水喝能治伤寒烦热、止吐泻,与干姜一起制...什么是脂肪粒
在我们的脸上总会长一个个像脂肪的小颗粒,弄也弄不掉,而且颜色还是白白的。它既不是粉刺也不是其他的任何痘痘,它就是脂肪粒。
脂肪粒虽然也是由油脂...来源:中国青年报
新的攻击方法不断涌现,黑客几乎永远占据网络攻击的上风,我们不可能通过技术手段杜绝网络攻击。国家安全保障的主要方向是打击犯罪,而不是处置和惩罚...夫妻网络直播“造人”爆红
  1月9日,温岭城北派出所接到南京警方的协查通告,他们近期打掉了一个涉黄直播APP平台。而根据掌握的线索,其中有一对涉案的夫妻主播...如何防止墙纸老化?
(1)选择透气性好的墙纸
市场上墙纸的材质分无纺布的、木纤维的、PVC的、玻璃纤维基材的、布面的等,相对而言,PVC材质的墙纸最不透气...观点一:破日本销售量的“鲜肌之谜” 非日本生产
近一段时间,淘宝上架了一款名为“鲜肌之谜的” 鲑鱼卵巢美容液,号称是最近日本的一款推出的全新护肤品,产品本身所...系腰裙(北宋词人 张先)
惜霜蟾照夜云天,朦胧影、画勾阑。人情纵似长情月,算一年年。又能得、几番圆。
欲寄西江题叶字,流不到、五亭前。东池始有荷新绿,尚小如...关于女人的经典语句1、【做一个独立的女人】
思想独立:有主见、有自己的人生观、价值观。有上进心,永远不放弃自己的理想,做一份自己喜爱的事业,拥有快乐和成就...你想体验机器人性爱吗?你想和性爱机器人结婚吗?如果你想,机器人有拒绝你的权利吗?
近日,第二届“国际人类-机器人性爱研讨会”大会在伦敦金史密斯大学落下帷幕。而...10.土耳其地下洞穴城市
变态指数:★★☆☆☆
这是土耳其卡帕多西亚的一个著名景点,传说是当年基督教徒们为了躲避战争而在此修建。里面曾住着20000人,......据英国《每日快报》报道,一位科学家兼理论家Robert Lanza博士宣称,世界上并不存在人类死亡,死亡的只是身体。他认为我们的意识借助我们体内的能量生存,而且...《我爱狐狸精》 - 刘馨棋
  (电视剧《屏里狐》主题曲)
  作词:金十三&李旦
  作曲:刘嘉
  狐狸精 狐狸仙
  千年修...·&·&·&&&&&&做网站的基本都知道蜘蛛是什么,其实蜘蛛就是一个搜索引擎的爬取程序,用来收录网站,然后在搜索引擎里面搜索呈现出来的页面。利用搜索引擎蜘蛛的爬取跟踪我们可以从中得到很多意想不到的信息从而更利于我们优化网站。
1、 利用蜘蛛告诉我们死链接
死链接对于网站的危害是非常大的,我们都知道,可以使用 robots.txt来对其进行屏蔽,但如何找出这些链接成为我们很头疼的问题,而搜索引擎蜘蛛会告诉我们哪些是真正的死链接,当蜘蛛爬取到一个死链接网页的时候,会在IIS日志里返回一个404状态码,这个时候就是告诉我们,这个网面是不可访问的,是一个死链接,所以我们只要查看IIS日志我们就知道搜索引擎蜘蛛提示我们网站有哪些死链接,然后我们再用robots.txt屏蔽掉即可,这样就不会让死链接对我们的网站造成影响了。
2、利用蜘蛛爬取的数量详细分析网站整体情况
我们可以通过IIS日志查询每天搜索引擎蜘蛛访问我们网站的次数,并且可以知道它访问了我们哪些页面,我们可以根据蜘蛛每天的爬取量就可以算出每个月蜘蛛的平均抓取量,这样我们就可以进行对比。
提升蜘蛛爬取量有以下两个因素
1)外部链接质量和数量增加
外链数量越多,蜘蛛爬取次数也就越多,同样外链的质量和权重越高,蜘蛛抓取网站的次数也就会越多了。
2)网站文章质量和更新频率
网站文章质量越好,蜘蛛来爬取后放出文章的通过率就会越高,蜘蛛爬取的次数就会增加,同样的道理,更新频率越快,蜘蛛爬取的频率也会增加。
从以上可以得出,如果网站每个月蜘蛛的爬取量是增加的,那我们就可以判断出来是由哪个因素引起的,也可以肯定网站权重也是随着蜘蛛爬取量上长而上升的,反之,蜘蛛的爬取量减少了,也可以确定,网站权重会随之下降。所以每天都要记录IIS日志的蜘蛛爬取量,然后根据这个来做网站优化的调整。
3、根据IIS日志的蜘蛛爬取分析服务器的稳定性
蜘蛛爬取我们的网站,如果网站不稳定,访问出了问题,蜘蛛就会返回503或500这样的状态码,并且也会出现200 0 64 这样的状态码,如果出现这种情况,首先要确定是什么时间产生的,需要马上联系服务器商或空间商,这样就可以马上解决我们所存在的问题。
4、 利用IIS日志蜘蛛爬取深入分析
搜索引擎在爬取我们网站内容的时候,经常会出现有一些目录他在爬取之后就不再去重复爬取了,而有些目录甚至一些内页会重复的不断爬取,对于此我们可以根据IIS日志中蜘蛛的爬取情况作珍上整体分析或是对比,看那些爬取差的页面是因为什么原因造成的。比如有一个案例,用IIS日志发现蜘蛛喜欢不断抓取网站的新闻目录,而产品目录抓取得少,究其原因,发现这两个页面之间的相似程度达到了90%以上,像这样的重复性很高的页面就要注意了,一定要添加原创性内容,避免页面的相似程度过高而导致蜘蛛不来抓取。
从以上我们可以看出,我们非常有必要每天都要下载网站的IIS日志进行查看,以及时的发现问题并解决问题,以保证我们的优化不受影响。
以上由 常州骨科医院 / 网站运营人员整理发布。转载请注明!&&&&&  免责声明:本文仅代表作者个人观点,与王朝网络无关。王朝网络登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。&&&&&&为你推荐&&&&&&转载本文&UBB代码&HTML代码复制到剪贴板...&更多内容··········&&&&&&&&&频道精选&&&王朝女性&&|&&|&&|&&|&&|&&|&&|&&|&&|&&|&&|&&|&王朝分栏&&|&&|&&|&&|&&|&&|&&|&&|&&|&&|&王朝编程&&|&&|&&|&&|&&|&&|&&|&&|&&|&&|&王朝导购&&|&&|&&|&&|&&|&&|&&|&&|&&|&&|&王朝其他&&|&&|&&|&&|&&|&&|&&&&2005-&&版权所有&您当前的位置:&&&&&正文
对网站日志文件分析:蜘蛛的工作行为
  通过分析网站日志Log文件我们可以看到用户和搜索引擎蜘蛛访问网站的行为数据,这些数据能让我们分析出用户和蜘蛛对网站的偏好以及网站的健康情况。在网站日志分析中,我们主要需要分析的是蜘蛛行为。
  在蜘蛛爬取及收录过程中,搜索引擎会给特定权重网站分配相应的资源量。一个搜索引擎友好型的网站应该充分利用这些资源,让蜘蛛可以迅速、准确、全面的爬取有价值、用户喜欢的内容,而不浪费资源在无用的、访问异常的内容上。
  但由于网站日志中数据量过大,所以我们一般需要借助网站日志分析工具来查看。常用的日志分析工具有:光年日志分析工具、web log exploer。
  在分析日志时,对于单日日志文件我们需要分析的内容有:访问次数、停留时间、抓取量、目录抓取统计、页面抓取统计、蜘蛛访问IP、HTTP状态码、蜘蛛活跃时段、蜘蛛爬取路径等;对于多日日志文件我们需要分析的内容有:蜘蛛访问次数趋势、停留时间趋势、整体抓取趋势、各目录抓取趋势、抓取时间段、蜘蛛活跃周期等。
  下面我们来看看网站日志如何分析?
  网站日志数据分析解读:
  1、访问次数、停留时间、抓取量
  从这三项数据中我们可以得知:平均每次抓取页面数、单页抓取停留时间和平均每次停留时间。
  平均每次抓取页面数=总抓取量/访问次数
  单页抓取停留=每次停留/每次抓取
  平均每次停留时间=总停留时间/访问次数
  从这些数据我们可以看出蜘蛛的活跃程度、亲和程度、抓取深度等,总访问次数、停留时间、抓取量越高、平均抓取页面、平均停留时间,表明网站越受搜索引擎喜欢。而单页抓取停留时间表明网站页面访问速度,时间越长,表明网站访问速度越慢,对搜索引擎抓取收录较不利,我们应尽量提高网页加载速度,减少单而立停留时间,让爬虫资源更多的去抓取收录。
  另外,根据这些数据我们还可以统计出一段时间内,网站的整体趋势表现,如:蜘蛛访问次数趋势、停留时间趋势、抓取趋势。
  2、目录抓取统计
  通过日志分析我们可以看到网站哪些目录受蜘蛛喜欢、抓取目录深度、重要页面目录抓取状况、无效页面目录抓取状况等。通过对比目录下页面抓取及收录情况,我们可以发现更多问题。对于重要目录,我们需要通过内外调整增加权重及爬取;对于无效页面,在robots.txt中进行屏蔽。
  另外,通过多日日志统计,我们可以看到站内外行为给目录带来的效果,优化是否合理,是否达到了预期效果。对于同一目录,以长期时间段来看,我们可以看到该目录下页面表现,根据行为推测表现的原因等。
  3、页面抓取
  在网站日志分析中,我们可以看到具体被蜘蛛爬取的页面。在这些页面中,我们可以分析出蜘蛛爬取了哪些需要被禁止爬取的页面、爬取了哪些无收录价值页面、爬取了哪些重复页面url等,为充分利用蜘蛛资源我们需要将这些地址在robots.txt中禁止爬取。
  另外,我们还可以分析未收录页面原因,对于新文章,是因为没有被爬取到而未收录抑或爬取了但未放出。对于某些阅读意义不大的页面,可能我们需要它作为爬取通道,对于这些页面,我们是否应该做Noindex标签等。但从另一方面讲,蜘蛛会弱智到靠这些无意义的通道页爬取页面吗,蜘蛛不懂sitemap?【对此,笨鸟有疑惑,求分享经验】
  4、蜘蛛访问IP
  曾经有人提出过通过蜘蛛的ip段来判断网站的降权情况,笨鸟感觉这个意义不大,因为这个后知性太强了。而且降权更多应该从前三项数据来判断,用单单一个ip段来判断意义不大。IP分析的更多用途应该是判断是否存在采集蜘蛛、假蜘蛛、恶意点击蜘蛛等。
  5、访问状态码
  蜘蛛经常出现的状态码如301、404等,出现这些状态码要及时处理,以避免对网站造成坏的影响。
  6、抓取时间段
  通过分析对比多个单日蜘蛛小时爬取量,我们可以了解到特定蜘蛛对于本网站在特定时间的活跃时段。通过对比周数据,我们可以看到特定蜘蛛在一周中的活跃周期。了解这个,对于网站内容更新时间有一定指导意义,而之前所谓小三大四等均为不科学说法。
  7、蜘蛛爬取路径
  在网站日志中我们可以跟踪到特定IP的访问路径,如果我们跟踪特定蜘蛛的访问路径则能发现对于本网站结构下蜘蛛的爬取路径偏好。由此,我们可以适当的引导蜘蛛的爬取路径,让蜘蛛更多的爬取重要、有价值、新更新页面。其中爬取路径中我们双可以分析页面物理结构路径偏好以及url逻辑结构爬取偏好。通过这些,可以让我们从搜索引擎的视角去审视自己的网站。
  从网站日志分析中我们还能得到更多内容,挺女网限于网站SEO知识的不足及日志工具的缺乏就无法再深入了,欢迎对此有研究的朋友留言交流。--博才网
下页更精彩:
点击排行榜
〖〗链接地址:
对网站日志文件分析:蜘蛛的工作行为由网友原创或转发,若对网站日志文件分析:蜘蛛的工作行为侵犯到您的权益,请及时通知我们(QQ:),谢谢!
微信查看最新信息微信扫一扫或用微信搜索微信号:hbrc-com
安卓手机客户端更省流量手机扫描下载或者直接
猜你还喜欢的文章
热点文章排行榜
• 版权所有 Copyright 2011 All rights reserved.jackjtlj0968
点击(2726)
博文分类(12)最新博文博客存档
分享吸引蜘蛛爬取网站的方法
15:37 &第一、地址库:地址库对搜索来说显得尤为重要,互联网上的网页数量是巨大的为了防止爬行和抓取重复的网址,搜索引擎会建立一个地址库,这个地址库主要记录已经发现但是还没有被抓取的页面,以及已经抓取的页面。有了地址库,就能让搜索引擎的工作更加有效率,地址库中的URL地址经常有几个来源:一是人工录入URL;二是自己爬行和抓取,如果爬行到一个新的网址,,地址库中没有就会存入待访问的数据库;三是通过提交,很多站长都会去主动提交要被收录的页面。蜘蛛会从待访问的地址中访问里边的URL爬行完就会删除,并存入以访问的地址库中。但大家也需要了解,去主动提高给搜索引擎网址,并不代表他一定会访问并收录我页面,搜索引擎更喜欢自己爬行发现新的URL所以我还是要做好网页的内容和外部链接。 第二、文件存储:文件存储是搜索引擎的一个技术关键所在同时也是面临的一个挑战。当搜索引擎爬行和抓取完成后,会把这些数据存入原始页面数据库。这个数据库存放的数据和用户在浏览器中看到页面是完全一样的每个URL都会有一个独特的编号。除此之外,还要存储各种计算权重所需要的数据,比如各种链接的关系,PR迭代计算等。这些数据量是巨大的很多网站不存在时,可以访问搜索引擎的快照页面,这些页面就是存在搜索引擎自己的数据库中,与站长网站自身的数据没有关系,独立存在平时的快照更新、排名动摇都和搜索引擎的文件存储有着直接的关系。第三、跟踪链接:跟踪链接指的蜘蛛会顺着页面上的链接从一个页面爬到下一个页面那么蜘蛛就会顺着这个词来排。因为整个互联网都是有不同的链接构成,所以理论上蜘蛛能爬行所有的页面。但由于现实中网站间的链接结构非常复杂,蜘蛛就会采取一定的战略才干爬行所有页面。罕见的战略一般有两种,一是深度优先,二是广度优先。深度优先指的顺着链接一直爬行,直到没有链接为止,然后返回第一个页面。而广度优先是顺着第一层的链接爬行,直到把第一层的链接爬行完然后再爬行第二层的链接。如果从理论上讲,只要有充足的时间,蜘蛛就能爬行完所有的网页,但实际上搜索引擎只是收录了互联网上很小的一部分网页。因此对我来讲,争取做足够多的外部链接,让蜘蛛有机会来爬行与抓取。(125) | (0) | 收藏 (0) |
这些人也更新了博客  1.网站及页面权重。  这个肯定是首要的了,权重高、资格老、有权威的网站蜘蛛是肯定特殊对待的,这样的网站抓取的频率非常高,而且大家知道搜索引擎蜘蛛为了保证高效,对于网站不是所有页面都会抓取的,而网站权重越高被爬行的深度也会比较高,相应能被抓取的页面也会变多,这样能被收录的页面也会变多。  2.网站服务器。  网站服务器是网站的基石,网站服务器如果长时间打不开,那么这相当与你闭门谢客,蜘蛛想来也来不了。百度蜘蛛也是网站的一个访客,如果你服务器不稳定或是比较卡,蜘蛛每次来抓取都比较艰难,并且有的时候一个页面只能抓取到一部分,这样久而久之,百度蜘蛛的体验越来越差,对你网站的评分也会越来越低,自然会影响对你网站的抓取,所以选择空间服务器一定要舍得,没有一个好的地基,再好的房子也会跨。    3.网站的更新频率。  蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与第一次收录的完全一样,说明页面没有更新,蜘蛛也就没有必要经常抓取了。页面内容经常更新,蜘蛛就会更加频繁的访问页面,但是蜘蛛不是你一个人的,不可能就在这蹲着等你更新,所以我们要主动向蜘蛛示好,有规律的进行文章更新,这样蜘蛛就会根据你的规律有效的过来抓取,不仅让你的更新文章能更快的抓取到,而且也不会造成蜘蛛经常性的白跑一趟。  4.文章的原创性。  优质的原创内容对于百度蜘蛛的诱惑力是非常巨大的,蜘蛛存在的目的就是寻找新东西,所以网站更新的文章不要采集、也不要每天都是转载,我们需要给蜘蛛真正有价值的原创内容,蜘蛛能得到喜欢的,自然会对你的网站产生好感,经常性的过来觅食。  5.扁平化网站结构。  蜘蛛抓取也是有自己的线路的,在之前你就给他铺好路,网站结构不要过于复杂,链接层次不要太深,如果链接层次太深,后面的页面很难被蜘蛛抓取到。  6.网站程序。  在网站程序之中,有很多程序可以制造出大量的重复页面,这个页面一般都是通过参数来实现的,当一个页面对应了很多URL的时候,就会造成网站内容重复,可能造成网站被降权,这样就会严重影响到蜘蛛的抓取,所以程序上一定要保证一个页面只有一个URL,如果已经产生,尽量通过301重定向、Canonical标签或者robots进行处理,保证只有一个标准URL被蜘蛛抓取。  7.外链建设。  大家都知道,外链可以为网站引来蜘蛛,特别是在新站的时候,网站不是很成熟,蜘蛛来访较少,外链可以增加网站页面在蜘蛛面前的曝光度,防止蜘蛛找不到页面。在外链建设过程中需要注意外链的质量,别为了省事做一些没用的东西,百度现在对于外链的管理相信大家都知道,我就不多说了,不要好心办坏事了。  8.内链建设。  蜘蛛的爬行是跟着链接走的,所以内链的合理优化可以要蜘蛛抓取到更多的页面,促进网站的收录。内链建设过程中要给用户合理推荐,除了在文章中增加锚文本之外,可以设置相关推荐,热门文章,更多喜欢之类的栏目,这是很多网站都在利用的,可以让蜘蛛抓取更大范围的页面。  9.首页推荐。  首页是蜘蛛来访次数最多的页面,也是网站权重最高的页面,可以在首页设置更新版块,这样不仅能让首页更新起来,促进蜘蛛的来访频率,而且可以促进更新页的抓取收录。同理在栏目页也可以进行此操作。  10.检查死链,设置404页面  搜索引擎蜘蛛是通过链接来爬行搜索,如果太多链接无法到达,不但收录页面数量会减少,而且你的网站在搜索引擎中的权重会大大降低。蜘蛛在遇见死链就像进了死胡同,又得折返重新来过,大大降低蜘蛛在网站的抓取效率,所以一定要定期排查网站的死链,向搜索引擎提交,同时要做好网站的404页面,告诉搜索引擎错误页面。  11.检查robots文件  很多网站有意无意的直接在robots文件屏蔽了百度或网站部分页面,却整天在找原因为什么蜘蛛不来抓取我的页面,这能怪百度吗?你都不让别人进门了,百度是怎么收录你的网页?所以有必要时常去检查一下网站robots文件是否正常。  12.建设网站地图。  搜索引擎蜘蛛非常喜欢网站地图,网站地图是一个网站所有链接的容器。很多网站的链接层次比较深,蜘蛛很难抓取到,网站地图可以方便搜索引擎蜘蛛抓取网站页面,通过抓取网站页面,清晰了解网站的架构,所以建设一个网站地图不仅提高抓取率还能获得蜘蛛好感。  13.主动提交  每次更新完页面,主动把内容向搜索引擎提交一下也是一个不错的办法,只不过不要没收录就一直去提交,提交一次就够了,收不收录是搜索引擎的事,提交不代表就要收录。  14.监测蜘蛛的爬行。  利用网站日志监测蜘蛛正在抓取哪些页面、抓取过哪些页面,还可以利用站长工具对蜘蛛的爬行速度进行查看,合理分配资源,以达到更高的抓取速度和勾引更多的蜘蛛。  网站要获得更多的收录就需要做好搜索引擎蜘蛛的抓取优化工作,底子打好才能往上爬,基础建设始终是网站优化的根本。。  本文出自:骏卡充值中心。原创整理,转载请注明出处!
楼主发言:1次 发图:0张 | 更多
  楼主说的这几点很正确!收益了,我知道更多优化相关的信息,可以去上面看看。
请遵守言论规则,不得违反国家法律法规回复(Ctrl+Enter)只需一步,快速开始
查看: 2624|回复: 1
阅读权限80
在线时间 小时
签到天数: 474 天连续签到: 1 天[LV.9]CEO
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
才可以下载或查看,没有帐号?
很多人对收录量和索引量这两个概念很模糊,不清楚这两者之间有什么区别,下面我们就来一起看一下。
  什么是收录量?
  收录量是指搜索引擎对网站页面的收录数据,结合索引来理解,就是蜘蛛首先爬取网站,建立一个索引库,然后放出的页面数量就是收录量,一般Site命令查询出来的数据结果就是收录的数据,这个数据不是非常准确,作参考指标。
  收录意味着每个页面至少会对应一个网页快照,快照页面是参与SEO排名的,所以收录量越多,参与SEO排名的页面也就越多,相对来说获得流量的范围就越大,当然,能获得多少SEO流量还是要看页面的排名和关键词的热度。
  收录量的准确查询需要借助搜索引擎的站长平台工具,如图1是搜狗站长平台的收录量查询界面,在里面可以准确地查询到不同时间,网站被收录的页面数量。
& & & & & & & & & & & & & & & &
  & && && && && && && && & 图1 搜狗站长平台界面
  什么是索引量?
  百度官方给出的解释:索引量仅指被百度搜索引擎建立了索引的网页总量,表示网站中有多少页面可以作为搜索候选结果,不同网页因内容重要性、稀缺性不同,被展现的几率有很大差别。
  索引量是蜘蛛对一个网站内容页面的抓取、整理所形成的一个数据库,网站的页面越多,这个数据库就应该越大,现在百度已经有官方的工具可以查询网站的索引量数据,这个数据相对来说还是比较准确的,和SEO虽然没有直接的关联,不过对于收录还是有一定指导作用。
  从SEO角度来说,索引量是第一步,蜘蛛抓取网站,建立索引页面;收录是第二步,蜘蛛根据页面内容和权重等因素放出网站的快照页面,从而可以参与关键词的排名;第三步就是关键词排名优化,争取获取更多的SEO流量。
  索引量的查询同样要借助站长平台,图2就是百度站长平台工具的界面。
& & & & & & & & & & & & & & & &
  & && && && && &&&图2 百度站长平台的界面
  从上面的介绍,基本上大家可以这样认为,索引量是收录网页的预备库,收录量是收录网页的确定结果,不过索引量不一定就大于收录数量,这两个概念的关系主要有两种情况:
  1、索引量多于收录量
  一般来说,索引量数据大于收录数据,特别是对于新站来说,刚开始面临一个审核周期,索引数据不断增加,而收录很难增长,这需要一些时间,不过当索引量高于收录很多的时候,就要注意了,应该是文章内容的问题,这时应该增加原创文章的更新,尽量减少转载,特别是一些低质量内容的转载。
  2、索引量少于收录量
  也有不少情况是索引量少于收录量的,我所负责的一个网站现在的情况是,索引数据4000左右,收录快到5000了,这个有可能是数据的不准确造成的,也有可能就是索引的页面放出情况良好,对应了多个快照页面,造成收录高于索引,要注意的是这两个数据应该相差不会太多,相差太大的话一般都是网站出现了问题,有人可能会说我的网站索引量和收录量完全一致,是不是就不存在问题,其实,收录数据(Site命令)是实时变动的,也不是非常准确,如果索引量和收录量完全一致的话,我只能说是巧合。
  索引量和收录数据能够在一定程度上反映出蜘蛛对网站喜好和信任程度,单纯的看这两个数据还是不够的,还要结合网站的页面数量,快照的更新时间以及网页的收录时间等,通过综合的数据表现,发现网站潜在的问题,评估工作内容的效果和下一步工作重点。
  索引量的多少一般由网站页面数量决定,要想索引量不断增加,就需要创造高质量的页面内容,不断吸引蜘蛛爬取,索引量数据出现了大的波动,蜘蛛抓取的次数和频率也会有相应的变化,这种变化是关联的,收录也会随着索引的增加而增长,两者的数据可能不一致,但是这种变化趋势应该一致,这种数据趋势可以体现出网站目前的状态,对后续的SEO工作有很大的指导作用。
a. 回帖是一种美德,也是对楼主发帖的尊重和支持;
&&&&如果通过本帖信息与他人联系,请说明来自推一把论坛!推一把微信公众号:tui18com
b. 请不要发表违反中华人民共和国法律的内容。本站所有帖子属会员个人意见,与本站立场无关.
&&&&帖子内容版权归属作者所有,如是转贴版权归属原作者所有,其他单位或个人在使用或转载帖子&&&&内容时须征得帖子作者的同意或注明内容原出处。
阅读权限50
在线时间 小时
签到天数: 78 天连续签到: 1 天[LV.6]经理
支持一下!!呵呵,不错
阅读权限50
在线时间 小时
签到天数: 81 天连续签到: 1 天[LV.6]经理
水平很高啊,值得学习
阅读权限60
在线时间 小时
签到天数: 118 天连续签到: 3 天[LV.6]经理
不错,值得一看
推一把微信公众号:tui18com||京公网安备
论坛事务(9:30-17:00):
|广告合作(9:30-17:00):
承载数据运行(|)}

我要回帖

更多关于 蜘蛛抓取 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信