市面上很多程序是自带的robots.txt文件协议的,比如现在市场上非常流行的dede织梦系统,他的文件结构就会自带robot文件协议,而且文件都已经是编写好的,如果想修改也是可以进行修改的。今天那,育米与大家一起分享一下,robots.txt文件的作用和注意事项
一、robots.txt协议文件有什么作用那?
搜索引擎蜘蛛在访问网站前期,最先访问的是文件便是robot.txt文件。通过tobot.txt文件可以告诉搜索引擎蜘蛛,网站的那个文件夹可以进入,那个文件夹不可以进入。那个网页文件可以抓取,那个网页文件不可以抓取。从搜索引擎优化的角度。通过robots文件协议可以达到屏蔽不相管网页文件,节省百度搜索引擎蜘蛛抓取文件效率的最大化。
所以说,robots文件协议如何编写是优化人员要掌握的基本内容。
二、如果总结网站设置robot.txt文件协议的原因:
1:可以设置访问权限保护网站的安全
2、禁止搜索引擎蜘蛛抓取无效的页面,集中权值到主要的页面上。
三、robot.txt文件编写的原则有哪些?
1)user-agent:后面根的是蜘蛛的名称,一般对于企业网站或者个人网站我们都用一个*来代替所有的搜索引擎蜘蛛。
user-agent: *
2)Disallow:后面跟的禁止搜索引擎抓取的文件。
User-agent:*
Disallow:/a/1.html
禁止所有的搜索引擎抓取a目录下面的1.html文件。
例如2:
User-agent:*
Disallow:/abc
禁止所有搜索引擎抓取网站中abc栏目的所有内容
Disallow:/abc.html Disallow:/abc/1.html
User-agent:*
Disallow:/abc/
禁止蜘蛛抓取网站中abc栏目下的内容,但是不包括abc本身。
1. 禁止蜘蛛抓取网站c栏目所有的内容
写法:
User-agent: *
Disallow:/c
2.禁止抓取我们网站的后台
user-agent:*
Disallow: /haotai
3) allow:后面跟上的是允许抓取的文件。
总结:正常情况下我们网站很多的页面都是希望被抓取收录的,所以我们在书写这个文件时候不是一条一条写出来,我们只需要写出禁止抓取的部分即可。
*通配符:告诉蜘蛛匹配任意字段字符。$通配符:匹配URL结尾的字符。
Disallow:/a/*.htm 禁止抓取a目录下面所有htm文件
/a/1.htm /a/adfdsf.htm
Disallow:/*.jpg$ 禁止抓取网站所有以.jpg结尾的图片
Disallow:/a/*.htm$ Disallow:/a/*.htm 1.html
禁止抓取网站所有以.png结尾的文件
Disallow:/*.png$
自己的网站如何添加robots.txt
1)把后台的登陆路径和文件屏蔽掉
Disallow:/dede
2) 屏蔽数据库目录data
3) 会员管理目录member
4) 安装文件install
5) 直接使用robots把网站死链接也屏蔽掉。
6) 把网站的404页面也给屏蔽掉,不让搜索引擎收录404页面。
注意:工作的时候不能完全套用这个robots文件。书写的时候结合具体的网站,不同的网站禁止的目录文件不一样。写好以后直接上传网站根目录下。
今天那,育米与大家的分享到这里吧! 可以关注济南华育贴吧,可以随时提出问题和不明白的地方。济南华育愿意与您成为朋友。