当前位置:搜启云 > 网站建设 > [robots.txt]禁止抓取机制robots.txt设置方法及注意事项

[robots.txt]禁止抓取机制robots.txt设置方法及注意事项

发表日期:2019-11-07

  今日咱们主要学习一下robots.txt文件的运用和设置方法。
 
  一、认识robots.txt文件
 
  从网站优化和网站安全的方面来说,咱们的站点并不是每一个页面都需求用户拜访,这就比如即便再好的朋友来到了您的家里,您也不会将家里一切的东西都展现给朋友看。那么怎样操控查找引擎蜘蛛抓取网站的规模呢?这便是咱们今日要讲的主角——robots.txt文件。
 
  robots.txt文件是查找引擎来到网站之后拜访的榜首文件,robots.txt文件中设置了查找引擎的抓取规模。
 
  二、robots.txt文件设置要求
 
  1、robots.txt文件必须放置在网站根目录;
 
  2、robots.txt文件名必须小写。
 
  依据上面两点提示咱们查看到绝大部分网站的robots.txt文件,假如出现无法拜访的现象,最大或许便是网站根目录中没有此文件。
 
  三、robots.txt文件规矩解读
 
  robots.txt的书写格局为:<域>:<可选空格><域值><可选空格>
 
  常见的robots.txt指令为:
 
  User-agent:*
 
  Disallow:/
 
  此指令代表制止一切的查找引擎抓取网站的任何部分。此指令常用于站点不想被查找引擎录入或许建站初期,当网站结构没有建造完结的时分,咱们是不希望查找引擎抓取网站任何内容的。
 
  1、User-agent:
 
  用于指定某个查找引擎蜘蛛,假如运用通配符*代表一切的查找引擎蜘蛛,如:
 
  User-agent:Baiduspider指的是指定百度蜘蛛;
 
  User-agent:Googlebot指的是指定谷歌蜘蛛。
 
  2、Disallow:/
 
  代表着制止抓取网站的某些内容,如“/”后边没有任何参数代表制止抓取网站一切内容。咱们来学习一下参数后边别离代表的意义:
 
  Disallow:/admin/制止抓取admin目录下的一切内容;
 
  Disallow:/cgi-bin/*.htm制止抓取/cgi-bin目录下的一切以.htm结束的文件;
 
  Disallow:/*?*制止抓取网站中一切包括问号(?)的网址;
 
  Disallow:/ab/adc.html制止抓取ab文件夹下面的adc.html文件;
 
  在这里要点着重一点,Disallow指令有一个比较特别的当地,Disallow:/代表着制止抓取,可是Disallow:代表着答应抓取,如:
 
  User-agent:*
 
  Disallow:
 
  此指令代表答应一切的查找引擎抓取网站的任何内容。
  3、Allow:/
 
  该指令用于答应蜘蛛抓取某些文件。Allow:/指令后边的参数与Disallow指令相同,如:
 
  User-agent:*
 
  Disallow:/a/
 
  Allow:/a/b/
 
  该指令的意义是不答应蜘蛛抓取a目录下的其他目录和文件,可是能够抓取a目录下的b目录中的内容。
 
  4、$通配符,代表着以某个字符结束的URL。
 
  User-agent:*
 
  Disallow:/.jpg$
 
  此指令的意义是制止一切查找引擎抓取一切.jpg文件。
 
  $指令在作用上有些当地和*是相同的,$指令常见于动态网址,互联网中使用不是特别广泛。
 
  Disallow:/.jpg$等同于Disallow:/*.jpg
 
  5、Sitemap:告知蜘蛛XML网站地图的方位,格局为:
 
  Sitemap:http://你的域名/sitemap.xml
 
  干流的查找引擎都会遵守robots文件指令,可是被robots文件制止抓取的网址还会出现在查找引擎成果中,这就比如你尽管不告知我发生了什么事,可是我从他人那里知道了你的事情相同。只要制止被抓取的网址在互联网中存在导入链接,查找引擎就会知道这个网址的存在,有或许被查找引擎录入,可是查找成果标题下方会出现对应的提示:
 
  因为该网站的tobots.txt文件存在约束指令(约束查找引擎抓取),体系无法供给该页面的内容。
 
  今日咱们主要学习一下robots.txt文件的运用和设置方法。
 
  一、认识robots.txt文件
 
  从网站优化和网站安全的方面来说,咱们的站点并不是每一个页面都需求用户拜访,这就比如即便再好的朋友来到了您的家里,您也不会将家里一切的东西都展现给朋友看。那么怎样操控查找引擎蜘蛛抓取网站的规模呢?这便是咱们今日要讲的主角——robots.txt文件。
 
  robots.txt文件是查找引擎来到网站之后拜访的榜首文件,robots.txt文件中设置了查找引擎的抓取规模。
 
  二、robots.txt文件设置要求
 
  1、robots.txt文件必须放置在网站根目录;
 
  2、robots.txt文件名必须小写。
 
  依据上面两点提示咱们查看到绝大部分网站的robots.txt文件,假如出现无法拜访的现象,最大或许便是网站根目录中没有此文件。
 
  三、robots.txt文件规矩解读
 
  robots.txt的书写格局为:<域>:<可选空格><域值><可选空格>
 
  常见的robots.txt指令为:
 
  User-agent:*
 
  Disallow:/
 
  此指令代表制止一切的查找引擎抓取网站的任何部分。此指令常用于站点不想被查找引擎录入或许建站初期,当网站结构没有建造完结的时分,咱们是不希望查找引擎抓取网站任何内容的。
 
  1、User-agent:
 
  用于指定某个查找引擎蜘蛛,假如运用通配符*代表一切的查找引擎蜘蛛,如:
 
  User-agent:Baiduspider指的是指定百度蜘蛛;
 
  User-agent:Googlebot指的是指定谷歌蜘蛛。
 
  2、Disallow:/
 
  代表着制止抓取网站的某些内容,如“/”后边没有任何参数代表制止抓取网站一切内容。咱们来学习一下参数后边别离代表的意义:
 
  Disallow:/admin/制止抓取admin目录下的一切内容;
 
  Disallow:/cgi-bin/*.htm制止抓取/cgi-bin目录下的一切以.htm结束的文件;
 
  Disallow:/*?*制止抓取网站中一切包括问号(?)的网址;
 
  Disallow:/ab/adc.html制止抓取ab文件夹下面的adc.html文件;
 
  在这里要点着重一点,Disallow指令有一个比较特别的当地,Disallow:/代表着制止抓取,可是Disallow:代表着答应抓取,如:
 
  User-agent:*
 
  Disallow:
 
  此指令代表答应一切的查找引擎抓取网站的任何内容。
 
  3、Allow:/
 
  该指令用于答应蜘蛛抓取某些文件。Allow:/指令后边的参数与Disallow指令相同,如:
 
  User-agent:*
 
  Disallow:/a/
 
  Allow:/a/b/
 
  该指令的意义是不答应蜘蛛抓取a目录下的其他目录和文件,可是能够抓取a目录下的b目录中的内容。
 
  4、$通配符,代表着以某个字符结束的URL。
 
  User-agent:*
 
  Disallow:/.jpg$
 
  此指令的意义是制止一切查找引擎抓取一切.jpg文件。
 
  $指令在作用上有些当地和*是相同的,$指令常见于动态网址,互联网中使用不是特别广泛。
 
  Disallow:/.jpg$等同于Disallow:/*.jpg
 
  5、Sitemap:告知蜘蛛XML网站地图的方位,格局为:
 
  Sitemap:http://你的域名/sitemap.xml
 
  干流的查找引擎都会遵守robots文件指令,可是被robots文件制止抓取的网址还会出现在查找引擎成果中,这就比如你尽管不告知我发生了什么事,可是我从他人那里知道了你的事情相同。只要制止被抓取的网址在互联网中存在导入链接,查找引擎就会知道这个网址的存在,有或许被查找引擎录入,可是查找成果标题下方会出现对应的提示:
 
  因为该网站的tobots.txt文件存在约束指令(约束查找引擎抓取),体系无法供给该页面的内容。

相关网站设计案例

相关新闻

[首页网]如何才能将营销型网站优化到搜索引擎首页

跟着互联网的普及,我们查找信息时,都习气通过查找引擎查找,只要输入所需...

日期:2019-12-23

[互联网的推广]中小企业的网站应该如何做好网络营销推广?

只需搜索引擎不倒,那么网站还有个人博客也会一贯存在,保护一个网站也是许...

日期:2019-12-23

[关键词优化排名软件]网站优化如何才能提高关键词排名

跟着互联网的开展,各行各业对网站的注重度也越来越高,网站制作可直接交予...

日期:2019-12-23

[网站优化方案]具体seo优化方案是什么样子的呢

所谓的搜索引擎优化优化,中文意义是指搜索引擎优化,是网络营销中最重要的...

日期:2019-12-23

[网站自然优化]网站自然排名优化怎么下手呢?看过来

优化服务首要针对新网站或要害词转化率低的网站进行,优化常常要一年半载才...

日期:2019-12-23

[网络的好处]网络优化对企业有何好处优势?

近年来,由于互联网的发展,越来越多的企业看到商机,与一些企业一同开始培...

日期:2019-12-23

网络营销方案]网络营销策划方案

网络营销策划案是为了到达营销方针而策划的综合性的、可操作的网络营销策略...

日期:2019-12-23

[搜索引擎优化]seo优化方法主要有哪些

很多搜索引擎优化新手其实都想知道搜索引擎优化优化的办法,可是这个问题其...

日期:2019-12-23

[网站搜索优化]网站优化快速上首页的7种技巧方法,三分钟读懂快

网站快速上主页一直以来都是SEOer所担忧的问题,怎样优化网站才干快速上主...

日期:2019-12-23

[百度seo]如何使用百度搜索资源平台帮助我们做好百度的SEO优化

百度查找资源渠道也便是以前的百度站长东西,其能够协助站长和SEOer更好的...

日期:2019-12-23

收缩
  • 电话咨询

  • 18520102000