我们先来认识一下什么是robots.txt? robots.txt是通过代码控制搜索引擎蜘蛛索引的一个手段,以便减轻网站服务器的带宽使用率,从而让网站的空间更稳定,同时也可以提高网站其他页面的索引效率,提高网站收录。
下面我们再来熟悉一下怎样使用robots.txt? 首先,我们需要创建一个robots.txt文本文件,然后在文档内设置好代码,告诉搜索引擎我网站的哪些文件你不能访问。然后上传到网站根目录下面,因为当搜索引擎蜘蛛在索引一个网站时,会先爬行查看网站根目录下是否有robots.txt文件。
robots.txt文件内的代码书写规范我们也要注意,其中User-agent:*是必须存在的,表示对所有搜索引擎蜘蛛有效。Disallow:是说明不允许索引哪些文件夹。
简介
robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它。robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令,也不是防火墙,如同守门人无法阻止窃贼等恶意闯入者。
原则 robots协议原理
Robots协议是国际互联网界通行的道德规范,基于以下原则建立:
1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
2、网站有义务保护其使用者的个人信息和隐私不被侵犯。
功能 Robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。
文件写法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
网站地图
网站地图是一个网站所有链接的容器。很多网站的连接比较层次比较深,蜘蛛很难抓取到,网站地图可以方便搜索引擎蜘蛛抓取网站页面,通过抓取网站页面,清晰了解网站的架构,网站地图一般存放在根目录下并命名为sitemap,为搜索引擎蜘蛛指路,增加网站重要内容页面的收录。网站地图就是根据网站的结构、框架、内容,生成的导航网页文 网站地图件。大多数人都知道网站地图对于提高用户体验有好处:它们为网站访问者指明方向,并帮助迷失的访问者找到他们想看的页面。对于SEO,网站地图的好处就更多了:
1.为搜索引擎蜘蛛提供可以浏览整个网站的链接简单的体现出网站的整体框架出来给搜索引擎看;
2.为搜索引擎蜘蛛提供一些链接,指向动态页面或者采用其他方法比较难以到达的页面;
3.作为一种潜在的着陆页面,可以为搜索流量进行优化;
4.如果访问者试图访问网站所在域内并不存在的URL,那么这个访问者就会被转到“无法找到文件”的错误页面,而网站地图可以作为该页面的“准”内容。
设计网站地图的作用非常重要,它不仅要满足访问用户的需求,还要取悦搜索引擎蜘蛛。在设计上也有一些技巧来让用户和蜘蛛都获得满意:
1.网站地图要包含最重要的一些页面
如果网站地图包含太多链接,人们浏览的时候就会迷失。因此如果网站页面总数超过了100个的话,就需要挑选出最重要的页面。建议挑选下面这些页面放到网站地图中去:
1)产品分类页面。
2)主要产品页面。
3)FAQ和帮助页面。
4)位于转化路径上的所有关键页面,访问者将从着陆页面出发,然后沿着这些页面实现转化。
5)访问量最大的前10个页面。
6)如果有站内搜索引擎的话,就挑选出从该搜索引擎出发点击次数最高的那些页面。
2.网站地图布局一定要简洁,所有的链接都是标准的HTML文本,并且要尽可能多的包含关键字
不要使用图片来做网站地图里的链接,这样蜘蛛就不能跟随了。一定要使用标准的HTML文本来做链接,链接中要包括尽可能多的目标关键字。
3. 尽量在站点地图上增加文本说明
增加文本会给蜘蛛提供更加有索引价值的内容,以及有关内容的更多线索。
4. 在每个页面里面放置网站地图的链接
用户一般会期望每个页面的底部都有一个指向网站地图的链接,你可以充分利用人们的这一习惯。如果网站有一个搜索栏的话,那么可以在这个搜索栏的附近增加一个指向网站地图的链接,甚至可以在搜索结果页面的某个固定位置放置网站地图的链接。
5.确保网站地图里的每一个链接都是正确、有效的
如果在网站地图里出现的链接是坏链和死链,对搜索引擎的影响是非常不好的。如果链接比较少,你可以把所有的链接都点一遍,以确保每一个链接是有效的。如果链接比较多,可以使用一些链接检查工具来检测。
6.可以把sitemap写进robots.txt里
在引擎爬虫进来抓取网页的时候,会首先查看robots.txt、如果首先把sitemap写进robots.txt里那么在效率上会大大提高,从而获得SEM的好感。
生成提交网上有很多sitemap地图生成的方法,比如在线生成、软件生成等,sitemap地图可以提交给各大搜索引擎,从而使搜索引擎更好的对网站页面进行收录,我们也可以通过robots.txt来告诉搜索引擎地图的位置。将制作好的网站地图上传至网站根目录下,最关键是把网站地图链接地址加入在robots文件中以及做好网站地图在页面方便蜘蛛抓取的位置,一般把网站地图放在页眉和页脚位置。
1.普通Html格式的网站地图
它的目的是帮助用户对站点的整体有个把握。Html格式的网站地图根据网站结构特征制定,尽量把网站的功能结构和服务内容富有条理地列出来。一般来说,网站首页有一个链接指向该格式的网站地图。
2.XML Sitemap 通常称为Sitemap(首字母大写 S)。简单来讲,Sitemap 就是网站上链接的列表。制作Sitemap,并提交给搜索引擎可以使网站的内容完全被收录,包括那些隐藏比较深的页面。这是一种网站与搜索引擎对话的好方式。
3.搜索引擎识别的地图
因为每个搜索引擎主要识别地图格式效果不同,建议分别采用以下格式:
百度:建议使用Html格式的网站地图
Google:建议使用Xml格式的网站地图
作用
1、搜索引擎每天都是让蜘蛛在互联网爬行来抓取页面,网站地图的作用就是给蜘蛛爬行构造了一个方便快捷的通道,因为网站页面是一层一层的链接的,其中可能会存在死链接的情况,如果没有网站地图,蜘蛛爬行在某个页面就因死链接爬行不了,那么就不能收录那些断链接的页面,更别说快速的收录了!
2、网站地图的存在不仅是满足搜索引擎蜘蛛的查看,更多是方便网站访客来浏览网站,特别是例如门户型网站由于信息量太多很多访客都是通过网站地图来寻找到自己需要的信息页面,这也能很好的提高用户体验度
3、网站地图可以提高链接页面的权重,因为网站地图是指向其他页面的链接,此时网站地图就给页面增加了导入链接,大家知道导入链接的增加会影响到页面的权重,从而提高页面的权重,页面权重的提高同时会提高页面的收录率。
怎样创建
1、在网站地图的文本和超级链接里提及最主要的关键词短语,帮助搜索引擎来识别,所链接的页面主题是什么。
2、为每一个链接提供一个简短的介绍,以提示访问者这部分内容是关于哪方面的。
3、提供文本链接到你站点上最主要的页面上;根据您的网站大小,网页数目的多少,它甚至可以链接到您所有的页面。
4、为搜索引擎提供一条绿色通道,使搜索引擎程序把您的主要网页迅速收录进去。
5、当用户查寻在您网站上原来看过的相关信息时,告诉他们如何去查询。只要在这一个网页内就可以得到所有希望查找的内容链接。
6、帮助搜索引擎轻松索引一些动态页面。由于一些页面将是动态产生,如果不是用户行为调用,将不会显示出来,您可以将此链接放在您的网站地图上,以帮助搜索引擎来索引您重要的动态页面。
7、建立网站地图后,当访问者访问网站时,可以轻松找到他们所需要的内容;当搜索引擎蜘蛛爬行网站时,可以快速访问整个站点。为了使网站地图吸引网络蜘蛛与访问者,一定要在链接后写上一定的描述性的短句和与此链接相关的关键词,切记不要使用过多的关健词。当访问者感觉到地图好用时,搜索引擎也同样能正确地理解地图的意义。不管网站的大小,页面的多少,给网站添加一个网站地图,是非常必要的。