Mob, 13358023087

建站知识

浏览213次

返回列表

2018-06-29

搜索引擎蜘蛛在您网站的爬去方式

    搜索引擎蜘蛛每天是怎么样去爬取我们的网的呢?你是否应该有些考虑了?试着对自己的网站进行改变了?以下的一些原因说明了搜索引擎的更新是有规律以及有章法进行的,要想更能适应搜索引擎的更新原则和蜘蛛爬取原则,我们就应该从更基础的入手去进行全面的分析和总结.
 
    第一、宽度优化遍历策略
 
    宽度优化遍历是一种非常简单直观且历史很悠久的遍历方法,在搜索引擎爬虫一出现就开始采用了.新提出的抓取策略往 往会将这种方法作为比较基准,但应该注意到的是,这种策略也是一种相当强悍的方法,很多新方法实际效果不见昨比宽 度优化遍历策略好,所以至今这种方法也是很多实际爬虫系统优先采用的爬取策略.网页爬取顺序基本是按照网页的重要 性排序的.之所以如此,有研究人员认为,如果某个网页包含很多入链,那么更有可能被宽度优化遍历策略早早爬到,而 入链这个数从侧面体现了网页的重要性,即实际上宽度优化遍历策略隐含了一些网页优化级假设.
 
    第二、非完全pagerank策略
 
    PageRank是一种着名的链接分析算法,可以用来衡量网页的重要性.很自然地,可以想到用PageRank的思想来对URL优化 级进行排序.但是这里有个问题,PageRank是个全局性算法,也就是说当所有网页下载完成后,其计算结果才是可靠的, 而爬虫的目的就是去下载网页,在运行过程中只能看到一部分页面,所以在爬取阶段的网页是无法获得可靠的PageRank得 分的.对于已经下载的网页,加上待爬取的URL队列中的一URL一起,形成网页集合,在此集合内进行PageRank计算,计算 完成之后,将待爬取URL队列里的网页按照按照PageRank得分由高低排序,形成的序列就是爬虫接下来应该依次爬取的URL 列表.这也是为何称之为"非完全PageRank"的原因.
 
    第三、OPIC策略( Online Page Importance Computation)
 
    OPIC的字面含义是"在线页面重要性计算",可以将其看做是一种改进的PageRank算法.在算法开始之前,每个互联网页 面都给予相同的现金,每当下载了某个页面P后,P就将自己拥有的现金平均分配给页面中包含的链接页面,氢自己的现金 清空.而对于待爬取URL队列中的网页,则根据其手头拥有的现金金额多少排序,优先下载现金最充裕的网页,OPIC从大 的框架上与PageRank思路基本一致,区别在于:PageRank每次需要迭代计算,而OPIC策略不需要迭代过程.所以计算速度 远远快与PageRank,适合实时 计算使用.同时,PageRank,在计算时,存在向无链接关系网页的远程跳转过程,而OPIC 没有这一计算因子.实验结果表明,OPIC是较好的重要性衡量策略,效果略优于宽度优化遍历策略.
 
    第四、大站优化策略
 
    大部优化策略思路很直接:以网站为单位来选题网页重要性,对于待爬取URL队列中的网页根据所属网站归类,如果哪个 网站等待下载的页面最多,则优化先下载这些链接,其本质思想倾向于优先下载大型网站.因为大型网站往往包含更多的 页面.鉴于大型网站往往是着名企业的内容,其网页质量一般较高,所以这个思路虽然简单,但是有一定依据.实验表明 这个算法效果也要略优先于宽度优先遍历策略. 第五、网页更新策略 互联网的动态是其显着特征,随时都有新出现的页面,页面的内容被更改或者本来存在的页面删除.
 
    对于爬虫来说,并非 将网页抓取到本地就算完成任务,也要体现出互联网这种动态性.本地下载的网页可被看做是互联网页的镜像,爬虫要尽 可能保证其一致性.可以假设一种情况:某 个网页已被删除或者内容做出重大变动,而搜索引擎对此惘然无知,仍然按 其旧有内容排序,将其作为搜索结果提供给用记,其用户体验度之糟糕不言而喻.所以对于已经爬取的网页,爬虫还要负 责保持其内容和互联网页面内容的同步,这取决于爬虫所彩用的网页更新策略.网页更新策略的任务是要决定何时重新爬 取之前已经下载过和网页,以尽可能使得本地下载网页和互联网原始页面内容保持一致.常用的网页更新策略有三种:历 史参考策略,用户体验度策略和聚类抽样策略.
 
    (1)什么是历史参考策略?
 
    历史参考策略是最直观的一种更新策略,它建立于如下假设之上:过去频繁更新的网页,那么将来也会频繁更新,所以为 了预估某个网页何时进行更新,可以通过参考其历史更新情况来做出决定. 从这一点可以看出,我们网站的更新一定要有规律的进行,这样才能让搜索引擎蜘蛛更好的来关注你的网站,把握你的网 站,很多人在更新网站的时候,不知道为什么要做规律性的更新,这就是真正存在的原因.
 
    (2)什么是用户体验度策略?
 
    这个很明显,大家都知道.一般来说,搜索引擎用户提交查询结果后,相关的搜索结果可能成千上万,而用户没有耐心去 查看排在后面的搜索结果,往往只盾前三页搜索内容,用户体验策略就是利用搜索引擎用户的这个特点来设计更新策略的 . (3)聚类抽样策略 上面介绍的两种网页更新策略严重依赖网页的历史更新信息,因为这是能够进行后续计算的基础.但在现实中为每个网页 保存历史信息,搜索系统会增加 额外的负担.从另外一个角度考虑,如果是首次爬取的网页,因为没有历史信息,所以 也就无法按照这两种思路去预估其更新周期,聚类抽样,策略即是为了解决上述缺点而提出的.网页一般具有一些属性, 根据这些属性可以预测其更新周期,具有相信属性的网页,其更新周期也是类似的.


桔子科技——专注于互联网综合化品牌创新整合服务公司
专注为客户提供最有价值的互联网营销设计方案
桔子科技为您提供:高端网站建设集团企业网站电商视觉年度设计营销型网站建设手机网站设计APP定制视觉设计、网络营销推广等。

业务咨询直线:13358023087
本篇文章版权由苏州桔子物语网络科技有限公司所有,如需转载,请注明出处!