如何利用robots.txt对wordpress优化插件博客进行优化

& WordPress利用robots.txt文件SEO优化
在WordPress中阻止Spider爬行一些目录和文件,不但可以有效的节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名。
使用WordPress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目录及文件,归纳大致有以下几种方法。
最简单的开放写法:
User-agent: *
使用说明:允许所有蜘蛛访问,允许访问所有内容。Wordpress只要模板中链接设计合理,没有需要限制的特殊内容,推荐使用这种写法。
最简单的严格写法:
User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.$
Disallow: /?s=
使用说明:允许所有蜘蛛访问,限制以&wp-&开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果。
Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。
最合理的写法:
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
使用说明:允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果。
包含sitemap.xml地址(这一项wiki中有专门的说明,但Google管理员工具会提示&检测到无效的 Sitemap 引用&,有效性尚有争议)。
robots.txt其他写法:为避免在搜索引擎中出现重复页面,Wordpress玩家自创了很多robots写法,列举一些常用的,作为参考(适用于伪静态方式的永久链接):
* Disallow: /page/ #限制抓取Wordpress分页
* Disallow: /category/*/page/* #限制抓取分类的分页
* Disallow: /tag/ #限制抓取标签页面
* Disallow: */trackback/ #限制抓取Trackback内容
* Disallow: /category/* #限制抓取所有分类列表
Leave a Reply
近期的文摘
AE的下一个LEVEL
纯拆分(4)
学习的梦想
锤炼的彩色
&nbsp 深圳市曹鹏计算机技术有限公司评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)为你的 WordPress 站点添加 robots.txt | WordPress大学
易多云免备案虚拟主机,新用户免费试用15天,一键安装Wordpress,!稍微接触过SEO的站长朋友都应该知道 robots协议(也称为爬虫协议、爬虫规则、机器人协议等),也就是通常添加到网站根目录的robots.txt 文件,它的作用在于告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,从而优化网站的收录结果和权重。如果你的网站根目录还没有 robots.txt,你可以创建一个,具体的写法请参考 。下面是一个基本的 WordPress  robots协议:User-agent: *
Disallow: /feed/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-
Allow: /wp-content/uploads/
Sitemap: /sitemap.xml下面主要介绍一下 WordPress 自动创建虚拟 robots.txt 功能。如果你的网站根目录不存在真实的 robots.txt,那么可以让 WordPress 自动创建一个虚拟的 robots.txt (该文件不会真实存在,但是访问 /robots.txt 时可以正常显示)将下面的代码添加到主题的 functions.php 即可:1
* 为你的 WordPress 站点添加 robots.txt
* /add-robots-txt.html
add_filter( 'robots_txt', 'robots_mod', 10, 2 );
function robots_mod( $output, $public ) {
$output .= &Disallow: /user/&; // 禁止收录链接中包含 /user/ 的页面
return $output;
}注:如果你想添加更多的规则,请复制上面代码的第 7 行,然后修改一下即可。访问 /robots.txt  我们可以看到如下内容:User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /user/也就是说,WordPress 默认已经添加了前 3 行规则了。robots.txt 涉及到网站的收录,所以请确保你明白它的书写方法,保证每条规则都是正确无误的!9,539相关文章
倡萌一个疯狂的 WordPress 爱好者,喜欢折腾 WordPress 主题,分享 WordPress 资源。如果你也喜欢 WordPress,欢迎和我一起交流!发表评论您必须
后才能发表评论最新文章
精彩专题精品推荐优化WordPress的robots.txt让博客更健康_霍常亮博客_天涯博客
霍常亮博客是专注于淘宝客研究的自媒体博客,与您分享淘宝联盟最新动态、淘宝客推广方法、淘宝客模板、淘宝客违规禁忌等淘宝客教程。
今日访问:[$DayVisitCount$]
总访问量:9434
开博时间:
博客排名:暂无排名
(353)(365)
(11)(5)(6)(343)
  WordPress目前全球有数千万用户,包括独立博客和博客平台,且很多人把Wordpress开发成CMS来使用。Wordpress程序的优越性就不用多说了。
讲Wordpress的robots.txt优化之前,先对robots.txt的相关知识普及一下。
robots.txt是一个存放在网站根目录下的纯文本文件(ASCII编码),这个文件用于指定spider在您网站上的抓取范围,一定程度上保护站点的安全和隐私。同时也是网站优化利器,例如屏蔽捉取站点的重复内容页面。
robots.txt目前并不是一种标准,只是一种协议!所以现在很多搜索引擎对robots.txt里的指令参数都有不同的看待。
使用robots.txt需要注意的几点地方:
1、指令区分大小写,忽略未知指令,下图是本博客的robots.txt文件在Google管理员工具里的测试结果;
好像还是不支持中文等非英文字符,如需添加中文地址指令,请先转码(UTF-8和GBK会有不同的转码结果)。
如果想第一时间知道自己写的robots.txt是否规范,可以用Google管理员工具的&像&Googlebot&一样抓取&功能。捉取后,点击&成功&那个链接进去,就可以看到Google眼中的robots.txt了。
2、每一行代表一个指令,空白和隔行会被忽略;
3、&#&号后的字符参数会被忽略;
4、有独立User-agent的规则,会排除在通配&*&User&agent的规则之外;
5、可以写入sitemap文件的链接,方便搜索引擎蜘蛛爬行整站内容。
6、尽量少用Allow指令,因为不同的搜索引擎对不同位置的Allow指令会有不同看待。
想了解更多关于robots.txt的&标准化&说明,可以查看robots.txt官网和Google关于robots.txt的说明页。
转入正题。因为Wordpress建站设置不同的固定链接(或者安装不同的插件),在写指令的时候,相应的地址会不同。本博客固定链接设置为:/a/%post_id%.html,供参考。
下面开始Wordpress的robots.txt优化之旅,同时请下载本博客的robots.txt边看边学优化。
User-agent:&*
一般博客的robots.txt指令设置都是面对所有spider程序,用通配符&*&即可。如果有独立User-agent的指令规则,尽量放在通配&*&User&agent规则的上方。
Disallow:&/wp-admin/
Disallow:&/wp-content/
Disallow:&/wp-includes/
屏蔽spider捉取程序文件,同时也节约了搜索引擎蜘蛛资源。
Disallow:&/*/trackback
每个默认的文章页面代码里,都有一段trackback的链接,如果不屏蔽让蜘蛛去捉取,网站会出现重复页面内容问题。
Disallow:&/feed
Disallow:&/*/feed
Disallow:&/comments/feed
头部代码里的feed链接主要是提示浏览器用户可以订阅本站,而一般的站点都有RSS输出和网站地图,故屏蔽搜索引擎捉取这些链接,节约蜘蛛资源。
Disallow:&/?s=*
Disallow:&/*/?s=*
这个就不用解释了,屏蔽捉取站内搜索结果。站内没出现这些链接不代表站外没有,如果收录了会造成和TAG等页面的内容相近。
Disallow:&/?r=*
屏蔽留言链接插件留下的变形留言链接。(没安装相关插件当然不用这条指令)
Disallow:&/*.jpg$
Disallow:&/*.jpeg$
Disallow:&/*.gif$
Disallow:&/*.png$
Disallow:&/*.bmp$
屏蔽捉取任何图片文件,在这里主要是想节约点宽带,不同的网站管理员可以按照喜好和需要设置这几条指令。
Disallow:&/?p=*
屏蔽捉取短链接。默认头部里的短链接,百度等搜索引擎蜘蛛会试图捉取,虽然最终短链接会301重定向到固定链接,但这样依然造成蜘蛛资源的浪费。
Disallow:&/*/comment-page-*
Disallow:&/*?replytocom*
屏蔽捉取留言信息链接。一般不会收录到这样的链接,但为了节约蜘蛛资源,也屏蔽之。
Disallow:&/a/date/
Disallow:&/a/author/
Disallow:&/a/category/
Disallow:&/?p=*&preview=true
Disallow:&/?page_id=*&preview=true
Disallow:&/wp-login.php
屏蔽其他的一些形形色色的链接,避免造成重复内容和隐私问题。
Sitemap:http://***.com/sitemap.txt
网站地图地址指令,主流是txt和xml格式。告诉搜索引擎网站地图地址,方便搜索引擎捉取全站内容,当然你可以设置多个地图地址。要注意的就是Sitemap的S要用大写,地图地址也要用绝对地址。
上面的这些Disallow指令都不是强制要求的,可以按需写入。也建议站点开通谷歌管理员工具,检查站点的robots.txt是否规范。
本站robots.txt里的指令解释会永久保留,/robots.txt。大家可以收藏,方便修改的时候用作参考。
免费下载淘宝客软件、模板、教程,点击批量下载,想要了解更多淘宝客教程、网赚资源您还可以加入收费群,新手快速变高手!查看详情
您还可以加入免费群,和更多的朋友交流分享,霍常亮QQ&,加我QQ,免费赠送SEO视频系列教程。
如果本文对您有帮助,请点击文末的&赞&,这是对本人最大的支持与鼓励!
本文固定链接:&/
转载请注明:&霍常亮&日&于&霍常亮博客&发表分类: |

我要回帖

更多关于 wordpress robots.txt 的文章

 

随机推荐