您好,欢迎来到中国名创! [请登录] [免费注册] [忘记密码]

robots.txt文件写法及应该屏蔽哪些目录?

时间:2014-08-25 14:53来源:中国名创

robots.txt文件存放位置

robots.txt文件应该放在网站根目录下。一般根目录为网站空间里面的wwwroot或者web文件夹,当你写好robots.txt文件后直接上传到根目录文件夹中就可以了。举例来说(比如http://www.63ns.cn.cn),首先搜索引擎会检查该网站中是否存在http://www.63ns.cn.cn/robots.txt这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

robots.txt文件写法

该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

User-agent: 

该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。

Disallow :

该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow: /help/"则允许robot访问/help.html,而不能访问/help/index.html。

任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。

robots.txt文件应该屏蔽哪些目录呢?

1)、图片目录

搜索引擎不认识图片,更不会收录图片。只要在图片alt属性里面做下相应注释就可以了。对图片目录可以使用robots.txt文件禁止抓取,通常的网站图片目录是:imags 或者 img。

2)、网站模板目录

随着现在建站越来越方便,大量CMS的出现,真正做到了会打字就会建网站,而正是因为如此方便,网上出现了大量的同质化模板网站,被反复使用,这样的网站搜索引擎是肯定不喜欢的,就算是你的网站被收录了,那你的效果也是很差的。高度的重复性模板在搜索引擎中形成了一种冗余,且模板文件常常与生成文件高度相似,同样易造成雷同内容的出现。所以我们也要通过robots.txt文件禁止搜索引擎抓取,很多CMS有拥有独立的模板存放目录,因此,应该进行模板目录的屏蔽。通常模板目录的文件目录是:templets。

3)、CSS、JS目录

CSS和JS文件在搜索引擎的抓取中没有用处,也无法提供有价值的信息。所以强烈建议站长朋友们在robots.txt文件中将其进行屏蔽,以提高搜索引擎的索引质量。

以上说的几点是网站普遍存在的需要屏蔽的目录,当然每个网站都有差异,比如很多人屏蔽了管理目录,不重要的分类目录等等。这些站长们可以通过网站日志分析,查看蜘蛛都爬过哪些目录,一些不重要的对seo网页优化没有意义的目录可以直接屏蔽,以增加搜索引擎蜘蛛爬行效率。

中国名创www.chuang.top 整理发布。
------分隔线----------------------------
相关文章: