网站robots怎么写.txt怎么写

查看: 2121|回复: 5
注册时间最后登录阅读权限10积分760精华0帖子
实习生, 积分 760, 距离下一级还需 240 积分
如题。这样写对吗?
User-agent: *
Allow: /index.html
Disallow: /
注册时间最后登录阅读权限10积分33精华0帖子
实习生, 积分 33, 距离下一级还需 967 积分
顺序错了,
User-agent: *
Disallow: /
Allow: /index.html
注册时间最后登录阅读权限10积分760精华0帖子
实习生, 积分 760, 距离下一级还需 240 积分
我看说明,应该是允许的放前面,唉,很矛盾呀
注册时间最后登录阅读权限10积分301精华0帖子
实习生, 积分 301, 距离下一级还需 699 积分
注册时间最后登录阅读权限20积分537精华0帖子
助理, 积分 537, 距离下一级还需 2463 积分
本帖最后由 nieqingyi1987 于
19:32 编辑
ヾ夕阳西下℃ 发表于
我看说明,应该是允许的放前面,唉,很矛盾呀
与顺序无关,在&/robots.txt&文件中,至少要有一条Disallow记录,允许收录优先级要高于禁止收录,所以与Disallow和Allow顺序无关,只是需要Allow需要和Disallow配套使用,否则Allow就没有意义。
注册时间最后登录阅读权限10积分5精华0帖子
User-agent: *
Disallow:/*
Allow: 复制代码已经测试ok了。
com/p/631.html& & & & PC& & & & 抓取失败
com/& & & & PC& & & & 抓取成功
com/1.html& & & & PC& & & & 抓取失败
抓去失败的原因都是
抓取异常信息:& & & & Robots封禁&&查看帮助
Powered by在线网站robots.txt文件生成器 - aTool在线工具
默认 - 所有机器人是:
Sitemap: (留空为无)
普通搜索机器人:
baiduspider
MSN Search
yahoo-slurp
Scrub The Web
DMOZ Checker
Alexa/Wayback
ia_archiver
naverbot, yeti
特殊搜索机器人:
Google Image
googlebot-image
Google Mobile
googlebot-mobile
yahoo-mmcrawler
MSN PicSearch
SingingFish
Yahoo Blogs
yahoo-blogs/v3.9
路径是相对的,但每个路径之前都要包含:"/"
生成 Robots.txt
什么是robots.txt文件 | What Is Robot.txt
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。
因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。
如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。
robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有与没有斜杠“/”表示的是不同的URL。robots.txt允许使用类似"Disallow: *.gif"这样的通配符。
Robots协议是国际互联网界通行的道德规范,基于以下原则建立:1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;2、网站有义务保护其使用者的个人信息和隐私不被侵犯。
robots.txt文件内容 | Content Of Robot.txt
搜索引擎蜘蛛的是否可访问性或者说可爬行性。
搜索引擎蜘蛛针对目录或者文件的可访问性。
网站站点地图sitemap路径定义。
搜索引擎蜘蛛爬行的时间间隔限制。
关于robots.txt文件生成器 | Robot.txt Generator
通过web界面设置好要配置的数据, 点击生成器的生成即可在最下方的文本输入框获得robots.txt的文件内容。
现在,你创建一个空白的文本文件,命名为:“robots.txt”,然后把上面的内容,复制并粘贴到“robots.txt”中去。
把“robots.txt”放在你网站的根目录,访问http://www.atool.org/robots.txt(相应替换为你的域名),确保他能让访问者(如搜索引擎)访问到。
推荐功能 / 猜你喜欢 | Suggest
评论 | Comments
公众号: atool-org怎么给网站设置robots.txt?怎么写?_百度知道
怎么给网站设置robots.txt?怎么写?
怎么给网站设置robots,这些文件最好是写具体一点wp建的网站,js,css,是不是不要让来爬取PHP.txt
我有更好的答案
不是,你是想让机器不来采取你网站的数据?有个站长工具里面可以代写的
其他类似问题
为您推荐:
robots的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁不让搜索引擎收录网站的Robots.txt文件写法 - 全球免费中心
&当前位置:&&&&&&
&不让搜索引擎收录网站的Robots.txt文件写法
注意题目是“让搜索引擎不收录你的网站”,弄错了,后果可是很严重哦~
有没有担心过自己的隐私会在强大的搜索引擎面前无所遁形?想象一下,如果要向世界上所有的人公开你的私人日记,你能接受吗?的确是很矛盾的问题,站长们大都忧虑“如何让搜索引擎收录的我的网站?”,而我们还是要研究一下“如何让搜索引擎不收录我们的网站”,也许我们同样也用的到。
1.搜索引擎如何工作的?
简单的说,搜索引擎实际上依靠的庞大的网页数据库。按搜索方式可以分为 全文搜索 和 目录搜索 两种。
所谓全文搜索,是搜索引擎通过从网页自动提取信息来建立数据库的过程。至于提取的原理,就是SEO狂热者们所研究的算法,在他们的理想情况下,网页应该是针对搜索引擎设计的,具有最好的收录效果。当然,不是本文的话题。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信 息存入数据库,以备用户查询。
与全文搜索引擎相比,目录索引有许多不同之处。目录索引完全是手工操作的。
首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。
其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。
最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而 且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。
2.如何拒绝搜索引擎?
其实很简单的,只需要在网站的根目录中放一个名称为Robots.txt的文件,该文件的写法很有讲究的哦,务必按要求写,写法如下:
1)什么是Robots.txt?Robots.txt是一个文本文件,关键是这个文件所在的位置:在网站的根目录下。弄错了,就不起作用了!
2)Robots.txt如何起作用?
前面提到过搜索引擎的自动提取信息会遵循一定的算法,但是,无论算法如何,第一步都是在寻找这个文件。其含义是,“贵站对我们这些Robots有什么限制?”所谓的Robots就是搜索引擎派出的蜘蛛或者机器人。如果没有得到回应(没有找到这个文件),代表没有什么限制,尽管来抓取吧。如果真的有这个文件,机器人会读来看看,如果自己被拒绝就会停止抓取过程了。
3)怎么写Robots.txt文件?
遵循语法的Robots.txt才可能被机器人识别,至于语法,介绍起来很繁琐,现简单举例如下:
1)禁止所有搜索引擎访问网站的任何部分(也就是网站彻底的拒绝所有搜索引擎收录)User-agent: * Disallow: /
2)允许所有的robot访问(也就是网站允许所有搜索引擎收录)User-agent: * Disallow:
3)禁止某个搜索引擎的访问(比如禁止百度收录,按如下的方式写)User-agent: baiduspider Disallow: /
4)允许某个搜索引擎的访问(比如允许百度收录,按如下的方式写)User-agent: baiduspiderDisallow: User-agent: * Disallow: /
5)禁止搜索引擎访问某些目录 User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /images/
使用方法:很简单,将代码存为一个文本文件,命名为Robots.txt ,放在网页根目录即可。
注意:所有语句都是单规则的,即每行仅声明一条规则,比如例五中三个目录必须分三行列出来。
更多关于Robots的资料请访问:
各个搜索引擎的机器人蜘蛛名称:&
======(本站从09-4-29开始加强免费资源版权管理)=========
不管出于何目的转载本文,请注明版权信息(包括来源和作者),否则一经发现将逐个处理。
若本站转了您的信息而未标明或标错或未找到出处而没标明的,请联系我们,2天内处理。
&因为目前没有时间可以管理评论,所以暂停评论功能!&
专题与标签
本分类排行榜:
本分类好评榜:
全站随机推荐
free789免费中心 | Power by Free789 v17.2(美化版) |
21:50:47, Processed in 20.3ms
本站程序和风格皆由站长飕飕然100%原创制作,谢绝模仿,违者必究。本站页面兼容几乎所有主流浏览器,您可根据自己的喜好选择浏览器。原名『全球免费中心』,于日改名为『free789免费中心』

我要回帖

更多关于 robots怎么写 的文章

 

随机推荐