网址、cpu核数越多越好吗好

网站内容越多越好吗 言多必失用户难使用_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
网站内容越多越好吗 言多必失用户难使用
网​站​内​容​越​多​越​好​吗​ ​言​多​必​失​用​户​难​使​用
阅读已结束,如果下载本文需要使用
想免费下载本文?
你可能喜欢抓取网站的搜索引擎蜘蛛是不是越多越好-马海祥博客
新型SEO思维就是从一个全新的层次上提升seo优化的水平,达到网络信息最佳化的展示效果!
> 抓取网站的搜索引擎蜘蛛是不是越多越好
抓取网站的搜索引擎蜘蛛是不是越多越好
时间:&&&文章来源:马海祥博客&&&访问次数:
做过SEO或站长的都应该知道,网站要想做排名就必须使网站文章先收录,而网站内容收录由跟搜索引擎蜘蛛的来访抓取有很大的关系。
搜索引擎蜘蛛,又被称为网页爬虫,网络机器人,在FOAF社区中间,也经常被称为网页追逐者,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外它还有一些不常使用的名字,如:蚂蚁,自动索引,模拟程序或者蠕虫。那么,对于一个网站来说,是不是来网站爬行的搜索引擎蜘蛛越多越好呢?
一、搜索引擎蜘蛛抓取网页的原理
关于搜索引擎获得网页的工具,是一款爬行程序(俗称蜘蛛),蜘蛛程序每天都会爬行大量的网页,并将一些新的网页信息带到服务器以便进行网页索引的建立。
可以说,互联网就是由一个个链接构成的,蜘蛛程序顺着这些链接爬行并发现网页信息,蜘蛛程序爬行每一个页面,当这个页面不再有新的链接信息的时候,它就返回,下次再到这个页面的时候,再去爬行(具体可查看马海祥博客的《》相关介绍)。
当给它足够的时间,他就会找到互联网所有的网页信息(至少是被链接的),在爬行的时候,它还会不断的向服务器提供信息,所以我们在进行网站日志分析的时候,如果发现某一个网页被某个搜索引擎的蜘蛛程序程序爬行并成功抓取数据,那么,这个网页就很有可能被索引。
所以,从SEO的角度来说,提高网页的索引数据(收录量)对于一个网站的搜索引擎优化(SEO)是非常有利的。
当蜘蛛程序在爬行链接的过程中,它还会对爬行过的链接进行处理,因为链接需要载体(文字、图片或其他信息),发现链接载体并存储链接数据。
所以这里我们要做的,就是努力增加蜘蛛爬行页面的频率(在以往的网站分析中经常提到),以保证我们网页在搜索引擎数据库中的索引是最新的。
比如蜘蛛程序今天访问了网站的两个网页并成功抓取,隔了两个星期,它再来访问这两个页面的时候,这两个网页其中一个更新了,另一个确没有,那么,蜘蛛程序可能会在一个星期内再次回访更新过的那个网页,而在一个月后才去访问没有更新的那个网页,随着时间的推移,蜘蛛程序会更加频繁是爬行经常更新的网页,以达到更新服务器中的索引数据,向用户提供最新的网页信息。
二、搜索引擎蜘蛛是不是越多越好?
不论哪个搜索引擎的爬虫,来抓取你网站的页面的时候,肯定在消耗你的网站资源,例如网站的连接数、网络带宽资源(空间流量)、服务器的负载、甚至还有盗链等,那是不是所有的搜索引擎蜘蛛都是有用呢?
另外,搜索引擎的爬虫来抓取你的页面数据后,它也不一定收用数据,只代表它&到此一游&留下痕迹而已,据马海祥了解有些搜索引擎只是过来找下它想要的资源,甚至还有很多是开发人员的蜘蛛测试。
对于一个原创内容丰富,URL结构合理易于爬取的网站来说,简直就是各种爬虫的盘中大餐,很多网站的访问流量构成当中,爬虫带来的流量要远远超过真实用户访问流量,甚至爬虫流量要高出真实流量一个数量级。
对于那些想提高网站有效利用率的网站,虽然设置了相当严格的反爬虫策略,但是网站处理的动态请求数量仍然是真实用户访问流量的2倍。
可以肯定的说,当今互联网的网络流量有很大一部分的流量是爬虫带来的,因此反搜索引擎爬虫是一个值得SEO长期探索和解决的问题。
所以,从SEO的角度来说,搜索引擎蜘蛛来网站访问并非越多越好,并且还要合理的屏蔽无效的搜索引擎蜘蛛的抓取。
三、过多的搜索引擎爬虫对网站的影响
既然对于网站来说,搜索引擎蜘蛛并非是越多越好,那么,这具体是因为什么原因导致的呢?
1、浪费带宽资源
如果你的网站带宽资源有限,而爬虫的量过多,导致正常用户访问缓慢,原本虚拟主机主机的连接数受限,带宽资源也是有限,这种情况搜索引擎爬虫受影响呈现更明显。
2、过于频繁的抓取会导致服务器报错
如果搜索引擎爬虫过于频繁,会抓取扫描很多无效页面,甚至抓页面抓到服务器报502、500 、504等服务器内部错误了(具体可查看马海祥博客的《》相关介绍),蜘蛛爬虫还在不停使劲抓取。
3、与网站主题不相关的搜索引擎爬虫消耗资源
比如一淘网的抓取工具是一淘网蜘蛛(EtaoSpider),目前是被各大购物网站屏蔽的,拒绝一淘网抓取其商品信息及用户产生的点评内容。
被禁止的原因首先应该是它们之间没有合作互利的关系,还有就是EtaoSpider爬虫是一个抓取最疯狂的蜘蛛,据马海祥对一些电商网站的测试发现:一淘网蜘蛛(EtaoSpider)的一天爬行量比&百度蜘蛛(Baiduspider)&&360蜘蛛(360Spider)&&SOSO蜘蛛(Sosospider)&等主流蜘蛛爬虫多几倍,并且是远远的多。
重点是EtaoSpider被抓取只会消耗你的网站资源,它不会给你带来访问量,或者其它对你有利用的。
4、无效的测试抓取
一些搜索引擎开发程序员,它们写的爬虫程序在测试爬行。
5、robots.txt文件也并非是万能
肯定有很多人认为,在robots.txt设置屏蔽搜索引擎爬虫即可,或者允许某些特定的搜索引擎爬虫,能达到你预想效果。
正规搜索引擎会遵守规则,不过不会及时生效,但是据我对马海祥博客的测试发现:实际上某些蜘蛛往往不是这样的,先扫描抓取你的页面,无视你的robots.txt,也可能它抓取后不一定留用,或者它只是统计信息,收集互联网行业趋势分析统计。
6、不是搜索引擎蜘蛛,但具有蜘蛛的特性
例如采集软件,采集程序,网络扫描e-mail地址的工具,各式各样的SEO分析统计工具,千奇百怪的网站漏洞扫描工具等等,这些抓取对网站没有任何好处!
四、如何解决无效搜索引擎蜘蛛取的问题
各种搜索引擎的蜘蛛爬虫会不断地访问抓取我们站点的内容,也会消耗站点的一定流量,有时候就需要屏蔽某些蜘蛛访问我们的站点。那么接下来,马海祥就根据自己的经验跟大家分享4种解决无效搜索引擎蜘蛛抓取的方法:
1、只运行常用的搜索引擎蜘蛛抓取
依据空间流量实际情况,就保留几个常用的,屏蔽掉其它蜘蛛以节省流量。
2、通过服务器防火墙来屏蔽ip
从服务器防火墙iptable直接屏蔽蜘蛛IP段、详细的IP,这是最直接、有效的屏蔽方法。
3、WWW服务器层面做限制
例如Nginx,Squid,Lighttpd,直接通过&http_user_agent&屏蔽搜索引擎爬虫。
4、最后robots.txt文件做限制
搜索引擎国际规则还是要遵循规则的。
五、各大搜索引擎蜘蛛的名称
为了使大家找到适合自己网站的搜索引擎蜘蛛,马海祥也特意整理了一份最新的各大搜索引擎蜘蛛名称(大家要注意下写法的不同点,特别是大小写):
1、百度蜘蛛:Baiduspider
网上的资料百度蜘蛛名称有BaiduSpider、baiduspider等,那是旧黄历了。百度蜘蛛最新名称为Baiduspider,我通过对马海祥博客日志的检查还发现了Baiduspider-image这个百度旗下蜘蛛,是抓取图片的蜘蛛。
常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。
2、谷歌蜘蛛:Googlebot
这个争议较少,但也有说是GoogleBot的,谷歌蜘蛛最新名称为& Googlebot/2.1;&,不过,我还在马海祥博客的日志中发现了Googlebot-Mobile,看名字是抓取wap内容的。
3、360蜘蛛:360Spider
它是一个很&勤奋抓爬&的蜘蛛。
4、SOSO蜘蛛:Sosospider
5、雅虎蜘蛛:&Yahoo! Slurp China&或者Yahoo!
6、有道蜘蛛:YoudaoBot,YodaoBot
7、搜狗蜘蛛:Sogou News Spider
另外,马海祥还发现搜狗蜘蛛还包括以下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider。
8、MSN蜘蛛:msnbot,msnbot-media
9、必应蜘蛛:bingbot,线上( bingbot/2.0;)
10、一搜蜘蛛:YisouSpider
11、Alexa蜘蛛:ia_archiver
12、宜搜蜘蛛:EasouSpider
13、即刻蜘蛛:JikeSpider
14、一淘网蜘蛛:EtaoSpider
根据上述蜘蛛中选择几个常用的允许抓取,其余的都可以通过robots屏蔽抓取,如果你的空间流量还足够使用的话,那就不用做屏蔽了,等流量紧张了就保留几个常用的屏蔽掉其它蜘蛛以节省流量。
至于那些蜘蛛抓取对网站能带来有利用的价值,网站的管理者应该是最清楚的。
另外,马海祥还发现了YandexBot、AhrefsBot和ezooms.bot这些蜘蛛,据说这些蜘蛛国外的,对中文网站用处很小。
其实对于我们站长来说,有效并且常用的搜索引擎就那么几个,只要在robots.txt文件里把常用的几个搜索引擎蜘蛛允许放行就好了,其它的爬虫统统通过通配符(*)禁止掉,或单独屏蔽某些蜘蛛(具体方式我也在马海祥博客的《》一文中跟大家做过详细的介绍,有兴趣的朋友可以看下)。
马海祥博客点评:
对于搜索引擎来说,使用搜索引擎蜘蛛不断的收集最新数据,主要用于提供它访问过页面的一个副本,然后,搜索引擎就可以对得到的页面进行索引,以提供快速的访问。蜘蛛也可以在web上用来自动执行一些任务,例如检查链接,确认html代码;也可以用来抓取网页上某种特定类型信息,例如抓取电子邮件地址(通常用于垃圾邮件)。
本文为原创文章,如想转载,请注明原文网址摘自于/seoyjy/727.html,注明出处;否则,禁止转载;谢谢配合!
您可能还会对以下这些文章感兴趣!
今天早上我一如既往的打开电脑查找我所需要的资料,在使用360搜索时却发现个奇怪的现象,在通过360综合搜索……
百度百家的问题在于,它还基本上是从百度新闻首页倒流给作者,但随着作者越来越多,狼多肉少,显然并非长久……
今天一早打开网站就看到很多的圈内人士在网上讨论,说百度昨晚在搜索引擎搜索页面做出的一个小变化,在搜索……
为什么客户在打开网页之后很快关闭了页面?为什么我的网站停留时……
目前,在中国做seo的在大多数时候,我们都是以百度和Google作为……
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否……
链接也称超级链接,是指从一个网页指向一个目标的连接关系,而在……
最近我在给公司的编辑和优化人员培训时,在讲到文章关键词的密度……
搜索引擎Spider系统的目标就是发现并抓取互联网中一切有价值的网……
本月热点文章谁知道国外房车网站,越多越好
谁知道国外房车网站,越多越好
是德国海酷房车网站;美国房车网站
提问者 的感言:谢谢啦,知道的人不多,可惜德国的看不懂唉
相关知识等待您来回答
购车养车领域专家
& &SOGOU - 京ICP证050897号  理论上来说是这样。  但是很多链接可能会面临这样两个问题  1.你的文章会不会被收录。  2.你的文章会不会被删除  只要出现这两个问题,也是白做。所以数量上也是要斟酌。   SEO记住很重要的几点,静态网页是最利于SEO的,另外内容是否原创、页面的优化、关键字选择、关键字排名、关键字密度、页面收录、title的编写(而keywords和desc现在变得不重要了),内链,这些都是基本功。尤其是内链,在你还没有太多的外部资源的时候,内链是将各页面权重有效传递的最佳途径。  而外链和流量并没有直接的关系,外链数量的多少以及质量的高低只是决定了你的关键字排名情况以及GG的PR值(其实百度也是很看重外链这块)。你说你的领导要你将公司网站做到5000IP,那么我觉得最重要的是你选择的关键字是什么,每个关键字带来的流量也是不同的。比如你负责的网站是公司的产品宣传网站,如果不是特别热门的行业或产品,每天5000的IP并不是很容易的(我是指在不作弊的情况下)。除非你靠一些与公司产品不贴边的关键字换来一些垃圾流量。这些就看你们领导对你的考核指标是什么样的了。  其实单纯的做流量并不是很困难,但如果领导有一天让你把某个关键字做到首页第一的位置,那才是比较费劲的事。
楼主发言:2次 发图:0张
  多谢分享,天涯确实是一个好的平台!!!感谢楼主,更要感谢天涯!!!!  
  多谢分享,天涯确实是一个好的平台!!!感谢楼主,更要感谢天涯!!!!  
  多谢楼主分享这么好的经验,TXT论坛
  看完之后我觉得我又学习到了很多/
  既然这么好,我也试试         http://www.  
  @yu 感谢楼主  
  感谢楼主分享  富士冲头:
  http://www./
  感谢楼主分享
专业液晶拼接大屏幕
  /article/cb04d.html
  法国雅漾集团思薇诗    化妆品排行榜前十名 法国雅漾集团思薇诗品牌居前列http://u..cn/news-40467-1.html  重唤化妆品业良知 思薇诗做良心产品,传递正能量  /1594493.shtml  解密法国雅漾集团思薇诗网络营销创新FOM模式  /2417643.shtml  法国雅漾集团思薇诗:做良心产品 传递正能量  http://www..cn/article-39753-1.html  化妆品排行榜前十名 法国雅漾集团思薇诗品牌居前列  http://u..cn/news-40467-1.html  竞争激烈:法国雅漾集团思薇诗深耕中国化妆品市场  /0762094.shtml  全球化妆品排行榜前十名 思薇诗产品受关注  /15/BP1DV0023316NA.html  纯天然护肤化妆品排行榜前十名 思薇诗受青睐  .cn/newsf//.htm  感谢!!
请遵守言论规则,不得违反国家法律法规

我要回帖

更多关于 网王h文 h越多越好 的文章

 

随机推荐