La duplication de contenu, ou duplicate content, peut se définir comme le fait pour un contenu d'être accessible via plusieurs URLs. Le duplicate content est une notion à dimensions variables : la duplication peut être stricte, ou bien partielle (on parle parfois de near-duplicate ou de similarité). Les moteurs de recherche eux-même ne font pas forcément de distinction claire entre les deux types, tant dans leur brevets que dans leurs directives aux webmasters.
Dans cet article, Sebastien Billard adopte une définition restreinte du duplicate content, en considérant qu'il y a duplication de contenu quand le contenu dupliqué est strictement le même, à l'octet près (ou à quelques octets près), et que la duplication émane du site à l'origine du contenu.
En tant que bases de données, les moteurs de recherche cherchent à éviter les doublons, qui encombrent inutilement leurs bases. Il est donc important de s'assurer que son propre contenu ne soit pas éliminé. Mais il y a plus encore : en ayant un même contenu accessible via plusieurs URLs, on dilue en fait les informations relatives à l'environnement des pages comme le PageRank : une partie de ce PR va être attribuée à l'URL A, et l'autre partie à l'URL B. Cela n'aide évidemment pas au référencement puisque aucune des pages ne va bénéficier de l'intégralité du PageRank. Dans cet article, nous allons voir quelques sources fréquentes de duplicate content, ainsi que les moyens de l'éviter..
Source et suite de l'article : [s.billard.free.fr]