lundi 1 mai 2017

Quelques outils efficaces pour détecter le contenu dupliqué


Parmi tous les facteurs bloquants du SEO que nous sommes en mesure de détecter automatiquement grâce aux crawler tels que Screaming Frog, le contenu dupliqué interne et externe reste le point sur lequel il est plus difficile faire une analyse complète, surtout si le site est de grande taille.

Les crawlers tels que Screaming Frog se contentent généralement de nous indiquer seulement les balises <title>, <meta decription> et <h1> dupliqués ce qui est un bon début mais généralement insuffisant pour pouvoir faire un état des lieux complet du site.

Les quelques outils gratuits que l'on peut trouver sur le web comme https://www.positeo.com/check-duplicate-content/ qui permettent de faire un check manuel sur un seul texte à la fois sont évidemment très limité si on doit vérifier plus d'une centaine de textes voir plusieurs milliers.

D'autres outils permettent de comparer comme celui-ci permettent de comparer 2 urls entre elles ou bien 2 textes.

http://outils-seo.alwaysdata.net/outils-contenu-editorial/calcul-similarite-contenu/













Ces différents outils qui proposent chacun une approche différente pour détecter le contenu dupliqué sont tous limités par leur incapacité à traiter un site dans son intégralité.

A ce jour, 3 outils payants sont désormais en mesure de mieux répondre à cette problématique ;

 1) On crawl :

http://fr.oncrawl.com/contenu-duplique/



Plus d'information également sur cet article :
http://fr.oncrawl.com/2016/detecteur-de-contenu-duplique/


2) Botify :


Botify se développer également sur ce sujet avec de nouvelles fonctionnalité permettant d'analyser le contenu de manière plus qualitative en excluant notamment le contenu "template" et le contenu véritablement unique. 






Il permet également de passer en revue les balises canonicals car même si de nombreux sites ont adopté l'utilisation de ces balises pour palier aux problèmes de contenus dupliqués mais un grand nombre continue de faire des erreurs dans leur utilisation et il est relativement difficile de repérer ces erreurs sans outils appropriés.



Cette détection peut se faire notamment par la section appelée "url explorer" qui permet de filtrer les urls crawlés selon certains critères spécifiques dont l'utilisation des canonicals.

3) Kill Duplicate :


Pour finir, un dernier outil qui est sortie il y a quelques années mais qui reste relativement onéreux pour le moment.

Cet outil 100% dédié au duplicate content permet d'automatiser la vérification dont celle du duplicate content externe ce qui est évidemment le plus difficile à vérifier à ce jour.

L'outil peut donc s'avérer intéressant pour un site de taille moyenne qui serait fortement confrontées à des problèmes de plagiat.

Présentation vidéo de l'outil :