lundi 22 octobre 2018

Utilisation de la Search Console pour analyser l'indexation de son site

Afin de dresser un état des lieux complet de son site internet en terme d'indexation et accessibilité des pages, nous devons combiner les sources d'informations qui sont à notre disposition pour étudier le comportement de Google sur notre site et les pages qu'ils découvrent et indexe.

Le crawl d'un site  avec un outil comme Screaming Frog étant souvent limité ou difficile pour faire cet état des lieux, la Search Console vient nous apporter des informations complémentaires et cela surtout depuis la sortie de la nouvelle Search Console.

Celle-ci vient en effet d'évoluer et offre une série d'information pouvant permettre la détection de problème majeur d'indexation non détectable lors d'un simple crawl.

Quelles sont les informations utiles sur la nouvelle Search Console ?


Depuis la sortie de la nouvelle Search Console, on prend l'habitude de passer de l'ancienne version à la nouvelle selon les informations recherchées car ces 2 versions sont complémentaires.

Pour ce qui est des informations relatives à l'indexation du site, la nouvelle version de la Search Console va bien au delà de l'ancienne version.

L'ancienne ne donnait qu'une courbe du nombre pages indexées et du nombre de pages bloquées par le robots.txt
L'absence totale d'informations détaillées sur les urls concernées ni même de possibilité d'export des informations ne permettait pas de comprendre ni d’interpréter la courbe.

La nouvelle Search Console, quant à elle, permet de distinguer un certain nombre de catégories d'urls ce qui nous permet de relever des informations très utiles.

Voici les plus importantes :


 - Urls valides mais non envoyées par un sitemap :

Ici on le cas d'url répondant en 200 que Google a indexé mais qui sont absentes du sitemap.xml
Cette données va nous permettre d'identifier rapidement si notre fichier sitemap.xml est à jour et dans le cas contraire, de définir combien d'urls sont absente du sitemap

 - Pages bloquées par le robots.txt :

Même information que dans l'ancienne version à l'exception que nous aurons accès à un extrait de 1000 urls concernées et donc des exemples concrets d'urls bloquées par le robots.txt

 - Explorées mais actuellement non indexées :

Une autre catégorie permettant d'identifier des cas d'urls non indexées mais que Google aurait explorée à un moment donnée.

 - Exclues par la balise Noindex :

Section très utile pour identifier une utilisation non pertinente de la balise Noindex

De nombreuses autres sections existent et fournissent chacune d'entre elles jusqu'à 1000 exemples exportable en csv, ce qui rend l'analyse beaucoup plus exhaustive qu'avec l'ancienne version.

De nombreuses situations de spamdexing (nombre de pages indexées par Google anormalement élevé par rapport à la taille réel du site) pourront être identifiées et interprétées par ces données et cela sans avoir à recourir à une analyse de log qui n'est pas toujours réalisable si nous ne disposons pas des fichiers en question.

Quelques limites concernant ces nouvelles données :


Il faut néanmoins préciser que ces nouvelles données restent très peu précises et parfois insuffisantes pour porter une conclusion sur un problème d'indexation.

Ceci en raison d'un export qui reste limité à 1000 urls par section ce qui est très peu quand on travaille sur un site faisant plusieurs dizaines voir centaines de milliers d'urls.

Il faut également préciser que Google ne founit toujours pas de données concernant la manière dont il a découvert ces pages. Si ces données peuvent nous permettre dès fois d'identifier un cas de spider trap évident, elles ne permettent souvent pas d'en comprendre l'origine.

Il faudra donc souvent complèter ces données avec une analyse manuelle du site et du crawl.