wordpress robots插件如何设置最佳robots.txt

wordpress怎样写robots.txt利于SEO优化 &>>&&>>&wordpress怎样写robots.txt利于SEO优化
王柏元的博客专用搜索引擎正式上线:极客人,就用“”!查看“”,精彩内容,期期相约
文章评分 1 次,平均分 5.0 :
[收起] 文章目录
一般来说,我们希望搜索蜘蛛光顾我们的网站越多越好,我相信每个新手站长都会是站长工具的常客,一大早起来就是关注自己网站的收录量.收录量的增长是一张晴雨表,升则忧、降则喜,我想告诉广大的站长朋友这完全没有必要,收录量不是目的,我觉得我们关注的重点应该是怎样让自己的网站拥有更多的百度搜索流量。是搜索引擎爬行网站的控制文件,按照一定的语法告诉搜索引擎哪些网页能爬,哪些不能爬,对于robots.txtd的介绍和书写语法,你可以参考这篇博文: 。可能你想说,收录量不是越多越好吗?其实不然,网站的网页不是收录越多越好,大家都知道搜索引擎比较网络上的网页相似度(相似度太高的两个页面会分散权重)的时候,不仅仅会进行不同网站间的纵向比较,而且会进行同一网站不同页面间的比较,所以,比如对于个人博客的作者归档和首页,页面内容差不多一样,我们完全可以屏蔽蜘蛛访问作者归档的页面。下面我来详细地介绍一下怎样写robots.txt利于优化。wordpress怎样写robots.txt利于优化&一、屏蔽没有必要收录的一些链接1、屏蔽捉取站内搜索结果Disallow: ?s=*这个就不用解释了,屏蔽捉取站内搜索结果。站内没出现这些链接不代表站外没有,如果收录了会造成和TAG等页面的内容相近。2、屏蔽spider捉取程序文件Disallow: /wp-*/屏蔽spider捉取程序文件,wp-*表示wp-admin,wp-include等文件夹都不让搜索蜘蛛爬行,这节约了搜索引擎蜘蛛资源。3、屏蔽feedDisallow: /feed/* Disallow: /*/*/feed/*Disallow: /*/*/*/feed/*头部代码里的feed链接主要是提示浏览器用户可以订阅本站,而一般的站点都有RSS输出和网站地图,故屏蔽搜索引擎抓取这些链接,相当有必要,应为feed里面的内容基本就是你文章内容的重复,相同内容会让百度降低单页面权重,同时这也节约蜘蛛资源和服务器的压力。4、屏蔽捉取留言信息链接Disallow:/*?replytocom*Disallow: /comments/Disallow: /*/comments/屏蔽留言信息链接。需要指出的是,屏蔽留言信息链接不是说不让蜘蛛收录你文章的评论页面,而是这样的链接打开后,整个页面就只有一个评论,完全没有被收录的必要,同时也节约蜘蛛资源,故屏蔽之。5、屏蔽其他的一些链接,避免造成重复内容和隐私问题Disallow: /date/  Disallow: /author/  Disallow: /category/  Disallow: /?p=*&preview=true  Disallow: /?page_id=*&preview=true  Disallow: /wp-login.php这些屏蔽规则你可以根据自己的需求决定是否创建,屏蔽data、author、category等页面都是为了避免太多重复内容,6、Disallow: /?p=*屏蔽捉取短链接。默认头部里的短链接,百度等搜索引擎蜘蛛会试图捉取,虽然最终短链接会301重定向到固定链接,但这样依然造成蜘蛛资源的浪费。7.屏蔽特定格式Disallow: /*.js$Disallow: /*.css$屏蔽对js、css格式文件的抓取,节约蜘蛛资源,降低服务器压力,你可以根据实际要求是否屏蔽你的图片被抓取。8.其它不想被抓取的页面Disallow: /*?connect=*Disallow: /kod/*Disallow: /api/*/*?connect=*:我的博客登录链接/kod/*:在线文件管理链接/api/*:我自制的API链接二、使用robots.txt需要注意的几点地方:1、有独立User-agent的规则,会排除在通配“*”User agent的规则之外;2、指令区分大小写,忽略未知指令,下图是本博客的robots.txt文件在Google管理员工具里的测试结果;3、“#”号后的字符参数会被忽略;4、可以写入sitemap文件的链接,方便搜索引擎蜘蛛爬行整站内容。5、每一行代表一个指令,空白和隔行会被忽略;6、尽量少用Allow指令,因为不同的搜索引擎对不同位置的Allow指令会有不同看待。上面的这些Disallow指令都不是强制要求的,可以按需写入。也建议站点开通百度站长工具,检查站点的robots.txt是否规范。三、百度站长工具robots.txt工具的使用方法百度站长工具robots.txt工具网址:百度站长工具robots.txt工具的使用方法&&检测并更新:在文本框里输入网站点击检测并更新,百度将抓取你的robots.txt文件,如果你近期robots.txt最近有更新,这将马上通知百度搜索蜘蛛更新它的爬行规则,使你修改后的robots.txt马上生效。规则校验:你可以提取自己的robots.txt,然后验证一下你的robots.txt语法是否正确,检验你想要禁止蜘蛛爬行的网址是否能有效屏蔽;创建生成:根据你的需求,傻瓜式地生成robots.txt,对于站长小白不妨一试。附录王柏元的博客robots.txt分享如下:
王柏元的博客 robots.txt分享
User-agent: *Disallow: /wp-*/Disallow: /*?connect=*Disallow: /date/*Disallow: /kod/*Disallow: /api/*Disallow: /*/trackbackDisallow: /*.js$Disallow: /*.css$Disallow:/*?replytocom*Disallow: /comments/Disallow: /*/comments/Disallow: /feed/*Disallow: /*/*/feed/*Disallow: /*/*/*/feed/*Disallow:/articles/*Disallow:/shuoshuo/*Sitemap: /sitemap_index.xml
123456789101112131415161718
User-agent: *Disallow: /wp-*/Disallow: /*?connect=*Disallow: /date/*Disallow: /kod/*Disallow: /api/*Disallow: /*/trackbackDisallow: /*.js$Disallow: /*.css$Disallow:/*?replytocom*Disallow: /comments/Disallow: /*/comments/Disallow: /feed/*Disallow: /*/*/feed/*Disallow: /*/*/*/feed/*Disallow:/articles/*Disallow:/shuoshuo/*Sitemap: http:///sitemap_index.xml
& 除特别注明外,本站所有文章均为原创,为了尊重作者的劳动成果,转载请注明出处,如果你觉得这篇文章对你有用,可以点击文章下面的“赞助作者”打赏作者!
记录生活,镌刻心路;泼洒文墨,分享技术!王柏元的博客致力于IT经验交流,并原创翻译引进外文文章,打开IT国际化视野
上搜索猜你喜欢
博客日历 2015年十月
一 二 三 四 五 六 日
12131415161718
19202122232425
262728293031 &
订阅博客周刊
给博主留言
关于本站 记录生活,镌刻心路;泼洒文墨,分享技术!王柏元的博客是王柏元的个人IT博客,致力于IT经验交流,并原创翻译引进英文博客文章,打开IT国际化视野。
博客通过认证:
您也可以使用第三方帐号快捷登录
扫一扫二维码分享阅读 2,499
阅读 2,648
阅读 3,259
阅读 2,962最新消息:相关问题请加入QQ讨论群:
当前位置: &
& wordpress robots.txt优化你的博客
WordPress博客的robots.txt文件写法得根据自身网站情况来定,当然我们可以借鉴一些知名网站的robots.txt写法,比如可以看wordpress教程网的robots.txt,可以通过访问:获取
以下就以本站为例:
User-agent: *
Disallow: /wp-
Disallow: /?
Disallow: /feed/
Disallow: /*/feed/
Disallow: /trackback/
Disallow: /*/trackback/
Disallow: /page/
Disallow: /a-category/*/page/
Disallow: /a-tag/*/page/
Sitemap: /sitemap_baidu.xml
下面详细解释下每行规则的含义:
User-agent: * 对所有搜索引擎开放收录
Disallow: /wp- 禁止搜索引擎收录所有包含“wp-”字样的url,如wp-admin、wp-content、wp-includes、wp-login.php等
Disallow: /? 禁止搜索引擎收录所有包含“?”字样的url
Disallow: /feed/ 禁止搜索引擎收录RSS订阅页面
Disallow: /*/feed/ 禁止搜索引擎收录所有分类目录、TAG、文章的RSS订阅
Disallow: /trackback/ 禁止收录网站的trackback
Disallow: /*/trackback/ 禁止收录所有分类目录、TAG、文章的trackback
Disallow: /page/ 禁止百度收录首页分页,防止首页权重过于分散
Disallow: /a-category/*/page/ 同理,禁止百度收录分类目录分页
Disallow: /a-tag/*/page/ 同理,禁止百度收录TAG标签分页
Sitemap: /sitemap_baidu.xml robots.txt文件增加Sitemap链接地址
转载请注明: &
与本文相关文章WordPress 博客创建robots.txt文件及其用法
对SEO了解的人应该知道并懂得robots.txt文件的作用及其用法,通过给网站设置适当的robots.txt无论对百度还是谷歌的SEO优化的作用是很明显的。所以为WordPress博客添加robots.txt文件是对博客SEO较为重要的一环,博客吧本篇介绍robots.txt的创建及其用法。
robots.txt的介绍:
robots是机器人的意思,robots.txt文件是给搜索引擎蜘蛛机器人看的纯文本文件,是搜索引擎公认遵循的一个规范文档,它会告诉Google、百度等搜索引擎哪些网页允许抓取、索引并在搜索结果中显示,哪些网页是被禁止收录的。搜索引擎蜘蛛spider(Googlebot/Baiduspider)访问网站页面的时,会先查看网站根目录下是否有robots.txt文件,有则按照文件设置的规则权限对网站页面进行抓取和索引。更具体的作用请网上搜索专门的介绍网站。
robots.txt的写法:
下面是博客吧的robots.txt文件的代码
User-agent:*
Disallow:/wp-
Allow:/wp-content/uploads/
Disallow:/?
Disallow:/feed
Disallow: /trackback
Disallow: /index.php?
Disallow: /*.php$
Disallow: /*.css$
Disallow: /date/
Disallow: /page/
Sitemap: http://www.boke8.net/sitemap.xml
User-agent: * 表示对所有的搜索引擎都采用下面的规则;
Disallow: /wp- 不允许Google/百度spider抓取和索引wp-开头的文件及目录,如wp-login.php,wp-admin目录等均被阻止;
Allow: /wp-content/uploads/
因为在上一条将wp-content目录屏蔽了,这样Google图片搜索和百度就无法访问放在/wp-content/uploads/目录下的图片, 为了能使Google图片搜索收录图片等附件,将这个目录设置为Allow;
Disallow: /? 禁止搜索引擎spider索引以?开头的网址,如单独文章页面的动态网址/?p=1。这一条比较厉害,包括了WordPress博客的大部分动态网址,
Disallow: /feed 禁止Google,百度搜索引擎索引feed博客页面。博客都有一个订阅整站的feed,每个文章分类,每篇文章也分别有一个feed,feed页面和网站页面内容基本相同,如果feed页面没有被禁止访问,可想而知,这将会产生大量的重复页面。
Disallow: /trackback作用与/feed一样,不详说
Disallow: /index.php? 这条规则是为了防止搜索引擎收录/index.php这种url产生的动态网址
Disallow: /*.php$ 这条规则是为了禁止搜索引擎访问和收录.php后缀结尾的url,包括/index.php,有效防止了首页权重被分散。
Disallow: /*.css$ 禁止搜索引擎访问css文件。
Disallow: /date/ 禁止搜索引擎访问日期存档页面
Disallow: /page/ 禁止搜索引擎访问博客文章翻页页面,这里设置后好处是减少了重复页面,坏处是Google和baidu的spider无法检索到老文章,因此这里要和网站地图Sitemap.xml配合使用。
提示:博客吧只说介绍robots.txt,对robots.txt更详细的作用及用法不作讲解。本文大量参照的相关内容。
提醒:上面的robots.txt文件代码乃博客吧现用的代码,各博主可按自己的情况作增删修改。
相关推荐:现在位置:
总共225篇文章
小兽以SEO出道,以折腾wordpress为兴趣,从事wordpress建站多年,专注wordpress主题开发设计!喜欢就加我QQ。

我要回帖

更多关于 wordpress robots插件 的文章

 

随机推荐