robots.txt用法介绍,网站优化

2024-06-05 16:58

本文主要是介绍robots.txt用法介绍,网站优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容,注意这是一个针对搜索引擎的一个文件。


当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。


另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。


robots.txt写作语法


首先,我们来看一个robots.txt范例:http://www.phpernote.com/robots.txt


访问以上具体地址,我们可以看到robots.txt的具体内容如下:


User-agent: *
Allow: /
#下列目录除外
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/


以上文本表达的意思是允许所有的搜索机器人访问phpernote.com站点下的除了 wp-admin/,wp-includes/,wp-contents 这几个目录外其他的所有文件。


具体语法分析:其中#后面文字为注释说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。


下面,我将列举一些robots.txt的具体用法:


允许所有的搜索引擎访问网站所有的部分的robot写法:


User-agent: *
Disallow:


或者也可以建一个空文件 robots.txt 文件,功能同上。


禁止所有搜索引擎访问网站的任何部分的robots写法:


User-agent: *
Disallow: /


禁止所有搜索引擎访问网站的某几个部分(下例中的01、02、03目录)的robots写法:


User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/


禁止某个搜索引擎的访问(如下例中禁止百度引擎抓取)的robots写法:


User-agent: Baiduspider
Disallow: /


注意:以上写法只禁止了百度搜索引擎的抓取,其他搜索引擎还是可以来抓取的。


只允许某个搜索引擎的访问(如下例中只允许谷歌搜索引擎抓取站点内容)的robots写法:


User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /


禁止搜索引擎抓取自己网站图片(禁止图片抓取)的robots写法:


User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$


如果你的网站有动态和静态两种形式的网页,你只允许抓取静态页面(禁止动态页面)的robots写法:


User-agent: *
Disallow: /*?*


下面顺便将各大搜索引擎的蜘蛛的名字分享一下(这里仅列举中国国内比较常用的一些搜索引擎):


google蜘蛛:Googlebot
百度蜘蛛:Baiduspider
搜狗蜘蛛:sogou spider
360蜘蛛:360Spider
yahoo蜘蛛:Yahoo!slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:MSNbot
Soso蜘蛛:Sosospider
Google Adsense蜘蛛:Mediapartners-Google
有道蜘蛛:YoudaoBot


robots 用于定义网页搜索引擎索引方式。robots meta 标签跟任何一种META标签是一样的,robots meta 放置在HTML网页代码的 head 之内。


robots 语法
<meta name="robots" content="robotterms" />


robotterms 是一组使用逗号(,)分割的值,通常有如下几种取值:none,noindex,nofollow,all,index和follow。各个值得具体释义如下:


none 搜索引擎将忽略此网页,等价于noindex,nofollow。


noindex 搜索引擎不索引此网页。


nofollow 搜索引擎不继续通过此网页的链接索引搜索其它的网页。


all 搜索引擎将索引此网页与继续通过此网页的链接索引,等价于index,follow。


index 搜索引擎索引此网页。


follow 搜索引擎继续通过此网页的链接索引搜索其它的网页。


注:如页面没有定义该标签,则默认是 <meta name="robots" content="index,follow" />


以下为具体的使用示例:


<meta name="robots" content="index,follow" />


上面示例定义了此网页可以被搜索引擎索引进数据库并且搜索引擎可以通过此网页的链接继续索引其它网页,但如上定义没有实际作用,因为默认的值就是 index,follow 。


<meta name="robots" content="noindex" />
//或者 <meta name="robots" content="noindex,follow" />


上面示例定义了此网页不被搜索引擎索引进数据库,但搜索引擎可以通过此网页的链接继续索引其它网页


<meta name="robots" content="index,nofollow" />
//或者 <meta name="robots" content="nofollow" />


上面示例定义了此网页可被搜索引擎索引进数据库,但搜索引擎不可以通过此网页的链接继续索引其它网页


<meta name="robots" content="noindex,nofollow" />
//或者 <meta name="robots" content="none" />


上面示例定义了此网页不被搜索引擎索引进数据库并且搜索引擎不可以通过此网页的链接继续索引其它网页


当content需要包含多个属性的时候需要用英文逗号隔离,注意同种属性正反两个方面(例如:index与noindex)不能同时出现在content之中。


注:目前只有少数的机器人支持此标签!谷歌,必应,雅虎均支持以上标签值,百度官方说法是目前只支持 noarchive 和 nofollow 。


(1)只针对谷歌 GOOGLEBOT 使用 robots
<meta name="googlebot" content="noindex,nofollow" />
(2)只针对百度 baiduspider 使用 robots
<meta name="baiduspider" content="noarchive,nofollow" />

这篇关于robots.txt用法介绍,网站优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1033641

相关文章

C语言中%zu的用法解读

《C语言中%zu的用法解读》size_t是无符号整数类型,用于表示对象大小或内存操作结果,%zu是C99标准中专为size_t设计的printf占位符,避免因类型不匹配导致错误,使用%u或%d可能引发... 目录size_t 类型与 %zu 占位符%zu 的用途替代占位符的风险兼容性说明其他相关占位符验证示

MySQL中EXISTS与IN用法使用与对比分析

《MySQL中EXISTS与IN用法使用与对比分析》在MySQL中,EXISTS和IN都用于子查询中根据另一个查询的结果来过滤主查询的记录,本文将基于工作原理、效率和应用场景进行全面对比... 目录一、基本用法详解1. IN 运算符2. EXISTS 运算符二、EXISTS 与 IN 的选择策略三、性能对比

MySQL常用字符串函数示例和场景介绍

《MySQL常用字符串函数示例和场景介绍》MySQL提供了丰富的字符串函数帮助我们高效地对字符串进行处理、转换和分析,本文我将全面且深入地介绍MySQL常用的字符串函数,并结合具体示例和场景,帮你熟练... 目录一、字符串函数概述1.1 字符串函数的作用1.2 字符串函数分类二、字符串长度与统计函数2.1

全面解析Golang 中的 Gorilla CORS 中间件正确用法

《全面解析Golang中的GorillaCORS中间件正确用法》Golang中使用gorilla/mux路由器配合rs/cors中间件库可以优雅地解决这个问题,然而,很多人刚开始使用时会遇到配... 目录如何让 golang 中的 Gorilla CORS 中间件正确工作一、基础依赖二、错误用法(很多人一开

Java Stream流之GroupBy的用法及应用场景

《JavaStream流之GroupBy的用法及应用场景》本教程将详细介绍如何在Java中使用Stream流的groupby方法,包括基本用法和一些常见的实际应用场景,感兴趣的朋友一起看看吧... 目录Java Stream流之GroupBy的用法1. 前言2. 基础概念什么是 GroupBy?Stream

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +

Java Spring的依赖注入理解及@Autowired用法示例详解

《JavaSpring的依赖注入理解及@Autowired用法示例详解》文章介绍了Spring依赖注入(DI)的概念、三种实现方式(构造器、Setter、字段注入),区分了@Autowired(注入... 目录一、什么是依赖注入(DI)?1. 定义2. 举个例子二、依赖注入的几种方式1. 构造器注入(Con

详解MySQL中JSON数据类型用法及与传统JSON字符串对比

《详解MySQL中JSON数据类型用法及与传统JSON字符串对比》MySQL从5.7版本开始引入了JSON数据类型,专门用于存储JSON格式的数据,本文将为大家简单介绍一下MySQL中JSON数据类型... 目录前言基本用法jsON数据类型 vs 传统JSON字符串1. 存储方式2. 查询方式对比3. 索引

小白也能轻松上手! 路由器设置优化指南

《小白也能轻松上手!路由器设置优化指南》在日常生活中,我们常常会遇到WiFi网速慢的问题,这主要受到三个方面的影响,首要原因是WiFi产品的配置优化不合理,其次是硬件性能的不足,以及宽带线路本身的质... 在数字化时代,网络已成为生活必需品,追剧、游戏、办公、学习都离不开稳定高速的网络。但很多人面对新路由器

MySQL深分页进行性能优化的常见方法

《MySQL深分页进行性能优化的常见方法》在Web应用中,分页查询是数据库操作中的常见需求,然而,在面对大型数据集时,深分页(deeppagination)却成为了性能优化的一个挑战,在本文中,我们将... 目录引言:深分页,真的只是“翻页慢”那么简单吗?一、背景介绍二、深分页的性能问题三、业务场景分析四、