搜索引擎的原理
德道网络 |
发表时间:2017-06-28 09:43:00
搜索引擎的原理
第一步:爬行和抓取
搜索引擎有一种自动爬行网站页面的程序(蜘蛛),沿着网站的链接进行爬行所对应的页面。我们网站是由链接构成,所以我们网站中就不能够有死链接(打不开的链接)必须要让蜘蛛能够在网站里面畅通无阻的抓取页面。
一、蜘蛛抓取策略
1.深度优先
什么是深度优先,简单的说,就是搜索引擎蜘蛛在一个页面发现发现一个链接然后顺着这个链接爬下去,然后在下一个页面又发现一个链接,然后就又爬下去并且全部抓取,这个就是深度优先抓取策略。
2.宽度优先
就是搜索引擎蜘蛛先把整个页面的链接全部抓取一次,然后在抓取下一个页面的全部链接。所以网页的层级不能太多。否则会导致网站收录难,妨碍了搜索引擎蜘蛛宽度优先策略。
宽度和深度并行使用,这样可以照顾到深度优先的网站,又可以照顾到宽度优先的网站。蜘蛛抓取的页面也就会更多。做网站的时候层级最好控制在3-4 个级别。
二、如何吸引蜘蛛
1.网站和页面权重高。质量高,资格老的网站往往会被蜘蛛认识,所以蜘蛛爬行深度也比较高,因此内页的收录就会越多。
2.页面更新,页面更新快,蜘蛛就是频繁的访问你的网站。喜欢新的内容,它顺着新的链接进行爬行。
3.导入链接,高质量的导入链接越多会使爬行深度增加。网站收录也会增加。
4.与首页的点击距离,离首页点击距离越近,页面权重越高,被蜘蛛爬行的机会就越大。
第二步:存储
蜘蛛抓取了链接所对应的页面,会把这些页面的内容存储到搜索引擎数据库里面。抓取都是文本内容,所以我们在优化的时候不要盲目的给网站一些图片动画,这些文件不利于蜘蛛的抓取。抓到数据库的内容都会被百度采纳。不代表内容就会被百度所采纳,搜索引擎还需处理。
第三步:预处理
1.提取文字
搜索引擎主要还是以文字内容为基础,html的格式标签和js程序等无法用于排名,所以在网站页面当中最好不要放JS的程序。
2.分词
搜索引擎优化,蜘蛛将第一步中提取的文字进行拆分重组,组成新的单词。
3.去重处理
去掉一些重复的内容,搜索引擎数据库里面已经存在的内容进行去重处理。
要求我们SEO优化人员在优化网站的时候不能完全抄袭别人的网站。
4.去停止词
停止词:的,得,地这类助词。美丽的中国。啊,哈,呀这类感叹词,从而,以,却这类副词或者介词。搜索引擎在索引之前会去掉这些停止词,减少无畏的计算量;要求我们在抄写文章修改力度要大,不能只是简单的修改一两字,要求我们在做SEO优化的时候修改力度大,写的和别人不一样,尤其标题千万不能一样。
第四步:建立索引
根据上面的预处理的结果,把页面关键词密度合理,内容匹配度高,其次反向链接多的,导出链接少的,这些页面实现排序,建立索引目录。
第五步:排名
搜索引擎经过搜索词处理,文件匹配,相关性计算,过滤调整,排名显示等一系列的复杂工作不步骤完成最终的排名,当我们的用户在百度搜索框里面搜索关键词的时候,百度会把匹配度高,流量高的站点排序展示给用户。