网络营销学习中,涉及到网站优化,网站收录,必然要考虑不让搜索引擎蜘蛛爬行我们的一些页面,比如:一些私密或重要内容,或者重复的内容,没有意义的内容等。此时可以使用robots协议来设置。
robots.txt的作用
防止私密或重要内容被搜索引擎抓取
节省服务器资源,从而提高服务质量
减少重复抓取,提高网站质量
指定sitemap文件位置
User-agent: *
针对哪个搜索引擎蜘蛛
这里的*代表搜索引擎种类,*是通配符
Allow
定义的是允许蜘蛛抓取某个栏目或文件
Disallow
定义的是禁止蜘蛛抓取某个栏目或文件
Disallow: /admin/
这里定义是禁止抓取admin目录
robots.txt文件主要是限制整个站点或者目录的蜘蛛访问情况,而robots meta标签则主要是针
对某个具体的页面
<meta name=“robots" content="index,follow">
robots meta标签语法
name=“robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”Baiduspider”
content部分有四个指令,以英文逗号隔开
index指令告诉蜘蛛可以抓取该页面
follow指令表示蜘蛛可以爬行该页面上的链接
共有四种组合:
<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">