百度搜索引擎工作原理
德道网络 |
发表时间:2017-07-22 10:12:19
百度搜索引擎的工作原理
1、搜索引擎抓取程序:蜘蛛
搜索引擎为了可以自动抓取互联网上面数以万计的网页,必须有一个全自动的页面抓取程序。而这个程序我们一般称之为“蜘蛛”(也可以叫做“机器人”)。那么不同的搜索引擎的蜘蛛,叫法也就不同了。百度的抓取程序,一般称为百度蜘蛛。
谷歌的抓取程序,一般称为谷歌机器人。
360的抓取程序,一般称为360蜘蛛。
其实,不管叫做蜘蛛,还是机器人,你只要知道这个指的是搜索引擎的抓取程序,就可以了。蜘蛛的任务很简单,就是顺着链接不断的抓取互联网上,自己还没有收录过的网页和链接,然后将抓取到的网页信息和链接信息存储到自己的网页数据库中。而这些抓取到的网页,将有机会出现在最终的搜索结果中。
2、怎么让蜘蛛来抓取我们的网站
通过上面对蜘蛛的解释,我们能够知道:要想自己的页面最终出现在搜索结果中,首先得让蜘蛛抓取到我们的网站。通过下面三种方法可以让蜘蛛来抓取我们的网站
外部链接:我们可以在一些已经被搜索引擎收录的网站上面发布自己网站的链接,以此吸引蜘蛛,或者交换友情链接也是一个常用的方法。
提交链接:百度为站长们提供了链接提交的工具,通过这个工具,我们只需要通过这个工具提交给百度,那么百度就会派出蜘蛛来抓取我们网页了。
3、影响蜘蛛抓取的因素
(1)网址不能过长:百度建议网址的长度不要超过256个字节(一个英文字母(不分大小写))占一个字节的空间,一个中文汉字占两个字节的空间)。
(2)网址中不要包含中文:百度对于中文网址的抓取效果都是比较差的,所以在网址内千万不要带有中文。
(3)服务器问题:如果你的服务器质量太差,总是打不开,那么也会影响蜘蛛的抓取效果。
(4)Robots.txt屏蔽:有的SEO人员由于疏忽。在Robots.txt文件里面屏蔽了想要被百度抓取的路径或者页面。这也会影响到百度对于我们网站的抓取效果。
(5)注意动态参数不要太多太复杂,目前百度对动态URL已经有了很好的处理,但是参数过多且复杂的url有可能被蜘蛛认为不重要而抛弃。这点尤为重要,一定注意。