如何使用Robots来处理网站死链接
Robot的应用:主要用于定义允许/禁止哪些搜索引擎蜘蛛的爬取,允许/禁止蜘蛛可以爬取的网站路径,允许/禁止蜘蛛爬取URL的规则,告诉某些搜索引擎网站地图的URL。
死链的处理:这里针对百度搜索引擎讨论,主要还是到站长工具里面,把死链提交给百度,告诉百度这个链接不存在,请求删除之前的收录,这里是以txt或xml形式批量提交死链给百度;
现在谈谈死链与Robot的关系,很多人就把死链提交到Robots定义里面,认为用Disallow来禁止百度蜘蛛的抓取,这个想法是好的,出发点无非是不想让百度收录自己网站的死链,但是有没有考虑到快照问题,就是这个链接是个死链,但是在网站收录里面还有快照存在,你就会想,是不是百度还能抓取到我的死链,所以你就在Robot里面加了N多行的Disallow,来禁止百度收录你的死链,seven一直不太认可这么一个做法,其实这完全是一个本末倒置的做法。
要搞清楚死链是如何产生的?死链是由于文件删除或者路径修改产生的不可访问的链接,那么你需要做的第一步是完全清除死链,第二步是提交死链,而Robots的禁止收录,是因为路径存在,但是你不希望被搜索引擎收录,比如网站后台或者用户中心一类,所以才加的Disallow去禁止收录,死链是访问不到的链接,如果你第一步清除完了,存在这个Disallow的必要吗?因为你不完全清除死链,势必影响用户体验。
死链是必须清除的,对于搜索引擎而言,网站收录之前的死链一般不会被收录,因为没有价值;收录之后的死链,可能用户会在搜索结果或者站内浏览时点击到,影响用户体验,所以必须提交死链和投诉快照加快死链处理。robots与死链的关系很微妙,差别就在于这个死链地址是否还存在于网站内链当中。