le crawl et l'indexation dans le référencement naturel SEO d'un site

Faciliter le crawl et l’indexation de son site web

Sans crawl, pas d’indexation, pas d’indexation, pas de référencement. Comment se déroule donc cette étape si importante du SEO qui est le crawl et l’indexation ? Découvrez dans cet article toutes les techniques pour réussir cette étape de base dans le processus de référencement naturel et d’optimisation d’un site web.

Tout savoir sur le crawl et l’indexation d’un site

L’étape du crawl et de l’indexation est très primordiale dans le processus de référencement d’un site. C’est une étape décisive à comprendre et à maîtriser pour réussir son référencement web.  Si un site ou même une page n’est pas crawlée par Google, elle n’existera pas. En effet, si elle n’est pas crawlée, Google ne pourra pas la présenter dans son index. Cette page ne servira à rien d’un point de vue référencement. Le crawl et l’indexation, c’est le premier point d’analyse de Google, et c’est l’étape ultime d’un processus de référencement. Si votre site n’est pas crawlé, elle ne sera pas indexé, inutile de penser à d’autres optimisations.

Par défaut lors du crawl, Google scanne toute les pages de votre site et les mets dans son index même les pages confidentielles telles que les comptes clients. Cependant, il est limité par ce qu’on appelle en SEO : le crawl budget. Il s’agit des ressources que réserve Googlebot (robot de Google) à l’exploration d’un site. Le crawl budget varie d’un site à l’autre en fonction des critères suivantes :

  • La performance du serveur
  • La profondeur (nombre de clics depuis la page d’accueil pour atteindre toute les pages du site )
  • La fréquence de mise à jour du site
  • La qualité du contenu.

Pour éviter que Google crawl toutes les pages d’un site, il est possible de le contrôler en lui disant «ne pas indexer» telle ou telle page. L’idée, c’est de préserver son crawl budget, ou son temps de scan que vous consacre Google. Le but, c’est aussi de contrôler et suivre son indexation pour éviter que Google s’essouffle dans votre structure, et surtout éviter de retrouver des pages confidentielles sur le moteur de recherche. Cela va aussi vous aider dans l’optimisation de votre référencement. La façon dont Google crawle votre site lui indique beaucoup sur la santé de ce dernier. Et enfin, cela permet de se sécuriser.

Comment vérifier le crawl et l’indexation de son site?

Voici quelques techniques pour vérifier le crawl et l’indexation de son site.

Première technique:
La première technique très basique c’est de taper le nom de son site Internet. Rendez-vous sur Google, tapez le nom de votre site, et si votre site ressort, c’est qu’il est indexé et qu’il a été crawlé.

Deuxième technique
La commande “SITE:” en tapant dans la barre de recherche site:https://www.monsite.com, on a comme résultat toutes les pages de son nom de domaine dans l’index de Google.

Troisième technique:
Utiliser Google Analytics. Pour cela allez sur l’outil ensuite dans “Rapport d’acquisition”, puis “Vue d’ensemble”. vous avez dans cette zone l’ensemble des canaux d’acquisition qui vous ont rapporté du trafic y compris “Organic Search“. Ensuite on cliquez sur “Sources”. De là on peut voir le nombre de trafic venu de Google. Ce qui signifie que votre site est bien indexé sur le moteur de recherche. Et encore une fois, s’il est bien indexé, c’est qu’il a été crawlé.

Quatrième technique:
En utilisant un analyseur de log; il faut savoir qu’un fichier log est un fichier qui répertorie toutes les connexions sur un site web. Ce fichier se trouve chez votre hébergeur. Par exemple chez OVH, il faudra se connecter sur logs.cluster023.hosting.ovh.net. Sur le fichier log, on a l’IP, l’adresse du site, la date et l’heure de connexion, et d’autres éléments. Vous pouvez utiliser en parallèle un analyseur de log tel que SEOLYZER, l’outil qui va vous permettre de lier vos logs à une interface ergonomique. Ensuite, allez sur “Analyse de logs”, “Volume de crawl”, de Googlebot, et là, vous avez la date et l’heure à laquelle Google est passé, l’URL qu’il a crawlé, le code que la connexion a renvoyé, vous avez également la durée de connexion.

Cinquième technique:
Utiliser Google Search Console : Rendez-vous sur Search Console dans “Index” puis dans “Couverture”. Vous avez le nombre d’URL qui ont été validées, ceux qui ont été indexées, et également le nombre d’URL qui ont été exclues, c’est-à-dire que Google n’a pas voulu indexer.

Aider Google dans le crawl et l’indexation de son site

Afin de favoriser le crawl et l’indexation de vos pages, vous pouvez créer un fichier qui se nomme sitemap.xml. Il s’agit d’une carte de votre site internet qui va lister les différents liens afin d’aider les robots de Google à mieux indexer vos pages. Ce fichier est en XML, c’est un langage informatique qui est lu par les robots de Google et les autres moteurs de recherche.
Vous pouvez créer un fichier sitemap.xml de deux manières.

En utilisant un CMS:
Si vous avez un CMS comme WordPress, installé l’extension « sitemap.xml » Cette extension rajoute automatique un fichier sitemap.xml à votre site. Vous pouvez vérifier les pages du site dans cette extension.

En utilisant un générateur de sitemap:
Si vous avez un site en dur, vous pouvez créer un fichier sitemap.xml via le site sitemap generator, xml-sitemaps.com. Une fois le fichier créé puis téléchargé, vous devez l’ajouter à la racine de votre site dans le serveur.

Influencer Google sur l’indexation

Pour maximiser le crawl budget et faire passer uniquement les robots sur les bonnes pages, vous pouvez utiliser le « fichier robots.txt » C’est le premier fichier que consulte Google lorsque celui-ci arrive sur votre site. Comme le fichier sitemap.xml, on le met à la racine du site, il s’agit d’un simple fichier texte avec la mention:
User-agent : *, signifie “ces indications concernent tous les robots”. Disallow: /* … Signifie “tous les robots sont qui veut dire refuser sur ce repertoire.
Pour créer le fichier robots.tx, si vous avez un CMS comme WordPress, vous pouver utiliser l’extension Virtual Robots.txt et y mettre les pages que vous souhaitez bloquer. Si vous avez un site en dur, vous pouvez créer le fichier manuellement puis ajouter ce fichier directement à la racine de votre site.

Comment désindexer des pages ?

Vous pouvez désindexer une page de trois manières :

  • En protégeant cette page par un mot de passe. Google va savoir qu’il y a un mot de passe et que cette page est protégée, il ne va pas l’indexer.
    Vous pouvez utiliser la balise “no index“. Il s’agit d’une balise que vous devez intégrer dans le code de la page. Cette balise est : meta name = “robots” content = “noindex”. Lorsque Google lira cette balise, il va comprendre que cette page ne doit pas être indexé.
  • Si vous avez un site en CMS comme WordPress, utilisez l’extensions “all in one seo pack” Grâce à cette extension extension, vous pouvez désindexer toutes les pages que vous voulez avec l’option NOINDEX.
  • Si jamais vous avez un site en dur, vous pouvez ajouter directement dans le code de la page la balise : meta name = “robots” content = “noindex”.

Construire une structure de site pertinente et efficace

La structure ou encore organigramme de site ou aussi arborescence est très importante dans le processus du crawl et l’indexation de site. C’est le chemin qu’empruntent les robots de Google lorsqu’ils viennent crawler un site. L’arborescence impacte grandement le crawl budget mais aussi les utilisateurs ou encore le positionnement des pages sur les moteurs de recherche. Si la structure n’est pas optimisée, Google va rapidement épuiser son crawl budget dans cette structure.

Une structure optimisée est une structure où les robots ont directement accès à toutes les pages depuis la page d’accueil. Google va pouvoir mieux les crawler et donc mieux les indexer pour mieux les positionner. L’idéal est de construire une arborescence simple avec des raccourcis vers les niveaux les plus recherchés par les internautes. Il faut distribuer la popularité en interne appelé le Link juice, jus de lien en français, en donnant plus d’importance aux meilleures pages dans votre maillage. Il faut supprimer les liens inutiles depuis la page d’accueil ou vous pouvez les obfusquer c’est-à-dire mettre un identifiant directement dans le code afin d’éviter que Google puisse passer sur ces liens.

Quelques situations qui peuvent nuire au crawl et l’indexation de votre site  

L’étape du crawl et de l’indexation est décisive pour pouvoir améliorer son référencement. Cependant quelques situations peuvent nuire cette étape. En voici quelques une :

La lenteur de chargement du site ; si votre site prend du temps à charger, cela peut nuire au crawl de toutes les pages. Vous pouvez tester la vitesse de chargement de votre site grâce à l’outil Google page speed.

Les pages avec des erreurs 404 ou 500 ; ces erreurs nuisent grandement à l’indexation de vos pages mais aussi à la qualité de votre référencement. Pour vérifier s’il y a des erreurs sur votre site, vous pouvez utiliser l’outils Screamingfrog ou l’outil Xenu.

Vous pouvez vérifier si vous avez des pages qui n’ont pas été indexées sur Google Search Console dans « Couverture ». Vous aurez dans cette outil les URL valides mais surtout les URL qui ont été exclues donc non indexées.

A lire également les leviers webmarketing pour réussir son projet e-commerce.

4.2/5 - (38 votes)