换链神器

站内优化第四课:Robots.txt优化部分

2016/12/22 10:54:20 标签: Robots 3 个评论 1846 次浏览

前面三节课,分别讲解了基础优化、代码优化、网址优化,接下今天会对网站Robots.txt优化进行一个详细的说明,希望同学们能够学习使用,并且能够灵活运行Robots.txt优化技巧。


Robots.txt文件优化


    Robots.txt对于任何一个从事SEO研究工作的人都是至关重要的,因为透过 Robots.txt 我们可以直接与搜索引擎蜘蛛进行对话,告诉他们哪些可以抓取,哪些不可以抓取。


    Robot.txt用法详解及robot.txt问题汇总


    (1)为什么设置Robots.txt?


    在进行SEO操作的时候,我们需要告诉搜索引擎哪些页面重要哪些页面不重要,重要的页面让蜘蛛进行抓取,不重要的页面进行屏蔽可以减少网站服务器的负担。


    (2)一些常见的问题和知识点


    蜘蛛在发现一个网站的时候,第一步是百度蜘蛛抓取网站的Robots.txt文件(当然官方上是这么说的,有时候也会出现不遵守的情况);


    建议所有的网站都要设置Robots.txt文件,如果你认为网站上所有内容都是重要的,你可以建立一个空的robots.txt文件;


    (3)在robots.txt文件中设置网站地图


    你可以在robots.txt中添加网站的地图,告诉蜘蛛网站地图所在的地址。


    (4)Robots.txt的顺序


    在蜘蛛协议中,Disallow 与 Allow是有顺序的,这是一个非常重要的问题,如果设置错误可能会导致抓取错误。


    引擎蜘蛛程序会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL,一个例子可以让你更清楚明白:


    User-agent: * 2.Allow: /seojc/bbs 3.Disallow: /seojc/  这个情况下,蜘蛛/seojc/bbs目录可以正常抓取,但/seojc/目录的文件无法抓取。通过这种方式可以允许蜘蛛访问特定目录中的部分url。


    我们对调下位置观察一下。


    User-agent: * 2.Disallow: /根目录下的文件夹/ 3.Allow: /seojc/bbs  /seojc/目录出现在第一行,禁止抓取目录下的所有文件,那么第二行的Allow就无效,因为第一行中已经禁止抓取seojc目录下的所有文件,而bbs目录正好位于seowhy目录下。因此匹配不成功。


    (5)Robots.txt路径问题


    在蜘蛛协议中,Allow和Disallow后面可以跟两种路径形式,即绝对链接、相对链接。绝对链接就是完整的URL形式,而相对链接只针对根目录。这是重点记住。


    (6)斜杠问题


    Disallow: /seojc表示禁止抓取seoic这个目录下的所有文件,如:seojc.1.html、seojc/rmjc.php都不允许抓取;


    Disallow: /seojc/ 表示禁止抓取seojc这个目录下的文件,即允许抓取seojc.1.html,但是不允许抓取seojc/rmjc.php。


另外在这里做个调查,看看大家在站内优化过程都做了一些什么:https://www.wenjuan.com/s/RVNrYv/(列出了29项,大家可以根据自己的情况来选择提交,提交后查看结果!)



本文由换链神器(www.huanlj.com)原创或整理发布,如需要转载请注明出处!
你看网此文章的心情是
  • 呵呵

    2 人

  • 震惊

    0 人

  • 4 人

  • 鄙视

    0 人

  • 流泪

    2 人

发布评论
(用户名必填)
(邮箱)
(网站)
发布评论请勿带广告,发现将被删除并扣除双倍积分。谢谢合作!
最新评论
第 1 楼

小葵花的七天课堂又开始啦

第 2 楼

一直不懂 Disallow、Allow、还有“/”的意思

第 3 楼

好好好

Copyright 2014 - 2018.换链神器&版权所有 湘公网安备 43060202000403号湘ICP备12009221号-7