互联网上重复内容是常态
首先互联网的世界就是充责着很多很多的重复内容。有些针对重复内容研究说 20% – 30%左右。例如:
当某网页引用其他网站的内容时,不免会重复对方网页上的一些内容。
又例如:当 Donald Trump赢出成为美国总统,很多媒体都可能是直接抄袭引用官方的生平简介。
网店很多时候亦会出现重复内容,例如:相同的产品描述出现在该产品页和产品分类下的该产品页。只要 URL网址不同搜索引擎就看成不同的页面。
更普遍的例子是同一网站支援加密连线 HTTPS和非加密连线 HTTP ,由于 HTTP和 HTTPS被搜索引擎看作不同网址,所以亦可看作重复内容。
何为搜索引擎惩罚
搜索引擎是不会对有重复内容的网页惩罚处理。所谓惩罚是指搜索引擎公司将该页面从索引数据库中抽走,导致搜索用户不可能从任何搜索查询中找到该网页。再进一步,当整个网站被惩罚时搜索引擎公司会将该网站的全部网页从索引数据库中抽走,导致搜索用户不可能从任何搜索查询中找到该网站的任何网页。搜索引擎发现网页或网站涉及不当的人为操控搜索排名而将网页原应有的排名为下调亦一般被视作搜索引擎惩罚。
不惩罚不等于喜欢。搜索引擎不喜欢重复的网页内容。理由是:搜索引擎认为Query Deserves Diversity(QDD),应份给予搜索用户多样性的 SERP结果。重复的网页内容对搜索引擎来说是对搜索用户提出的查询给出的相同答案,只是网址不同,内容大致是相同。所以搜索引擎只会从相同答案中抽取最好的一个网址放入搜索排名结果页面,其他相同答案被筛走。而这个筛走结果常常被误解为搜索引擎惩罚。