Qu'est-ce que le fichier robots.txt ?

Le fichier robots.txt est un simple fichier texte placé à la racine de votre site (https://example.com/robots.txt) qui indique aux robots des moteurs de recherche quelles pages ou sections de votre site ils peuvent ou ne peuvent pas explorer. Il existe depuis 1994 et constitue l'un des plus anciens standards du Web. Tout moteur de recherche sérieux le respecte, mais il est important de comprendre ce qu'il peut et ne peut pas faire.

Comment fonctionne la syntaxe du robots.txt

Le fichier utilise une syntaxe simple, ligne par ligne. Chaque bloc commence par une ligne User-agent qui précise à quel robot s'appliquent les règles, suivie d'une ou plusieurs directives Disallow ou Allow. Voici un récapitulatif complet de toutes les directives prises en charge :

User-agent : identifie le robot. Utilisez * pour cibler tous les robots, ou indiquez un robot précis comme Googlebot, Bingbot ou GPTBot.
Disallow : indique au robot de ne pas accéder au chemin spécifié. Disallow: /private/ bloque tout ce qui se trouve dans le répertoire /private/. Un Disallow: vide signifie que rien n'est bloqué.
Allow : remplace une règle Disallow pour un chemin précis. Utile lorsque vous souhaitez bloquer un répertoire mais autoriser l'accès à certains fichiers qu'il contient.
Sitemap : indique l'URL de votre sitemap XML. Cette directive ne fait pas techniquement partie du standard d'origine du robots.txt, mais tous les principaux moteurs de recherche la prennent en charge.
Crawl-delay : demande au robot d'attendre un nombre de secondes spécifié entre chaque requête. Google ignore cette directive (vous pouvez à la place définir le rythme d'exploration dans la Search Console), mais Bing et d'autres robots la respectent.

Un exemple typique de robots.txt pour WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /xmlrpc.php
Disallow: /?s=
Disallow: /search/

Sitemap: https://example.com/sitemap_index.xml

Voyons ligne par ligne ce que fait chaque règle :

Disallow: /wp-admin/ : empêche les robots d'accéder à la zone d'administration WordPress. Il n'y a aucune raison que les moteurs de recherche explorent votre tableau de bord.
Allow: /wp-admin/admin-ajax.php : cette exception est importante car de nombreux thèmes et extensions utilisent admin-ajax.php pour les fonctionnalités du frontend. Le bloquer peut casser certaines fonctions sur vos pages publiques.
Disallow: /wp-includes/ : bloque le répertoire des includes du cœur de WordPress, qui contient des fichiers système non destinés à l'indexation.
Disallow: /readme.html : masque le fichier readme de WordPress qui révèle votre version de WordPress.
Disallow: /xmlrpc.php : bloque l'accès au point d'entrée XML-RPC, fréquemment ciblé par des attaques par force brute.
Disallow: /?s= et Disallow: /search/ : empêchent l'indexation des pages de résultats de recherche internes, à faible valeur et susceptibles de générer du contenu dupliqué.

robots.txt et la balise meta noindex

Il s'agit de l'une des distinctions les plus mal comprises en SEO. De nombreux propriétaires de sites pensent que bloquer une page dans robots.txt l'empêche d'apparaître dans les résultats de recherche. Ce n'est pas le cas.

robots.txt contrôle l'exploration : il indique aux moteurs de recherche de ne pas visiter une URL particulière. Mais si d'autres sites pointent vers cette URL, Google peut tout de même l'indexer et l'afficher dans les résultats avec une mention du type « Aucune information n'est disponible pour cette page ».

La balise meta noindex contrôle l'indexation : elle indique aux moteurs de recherche « vous pouvez explorer cette page, mais ne l'incluez pas dans vos résultats de recherche ». Le point essentiel est que Google doit réellement explorer la page pour voir la directive noindex. Si vous bloquez une page dans robots.txt ET ajoutez une balise noindex, Google ne peut pas explorer la page pour découvrir la balise noindex, et il pourrait donc tout de même indexer l'URL sur la base de signaux externes.

Règle générale : utilisez robots.txt pour gérer le budget d'exploration et tenir les robots à l'écart des zones côté serveur. Utilisez noindex lorsque vous voulez qu'une page soit totalement retirée des résultats de recherche.

Comment Googlebot traite le robots.txt

Google consulte régulièrement votre robots.txt et le met généralement en cache jusqu'à 24 heures. Si Google ne parvient pas à récupérer le fichier (par exemple si votre serveur renvoie une erreur 500), il arrêtera temporairement d'explorer votre site par sécurité. Une réponse 404, en revanche, est interprétée comme « aucune restriction », ce qui signifie que Google explorera tout.

Google prend également en charge les motifs dans les chemins de robots.txt. Vous pouvez utiliser * comme caractère générique et $ pour indiquer la fin d'une URL :

Disallow: /*.pdf$
Disallow: /category/*/page/

La première règle bloque tous les fichiers PDF sur l'ensemble du site. La seconde bloque les pages de pagination dans les archives de catégories.

Tester votre robots.txt avec la Google Search Console

La Google Search Console inclut un testeur de robots.txt qui permet de vérifier si une URL spécifique est bloquée. C'est précieux après avoir modifié votre robots.txt, car une petite faute de frappe peut accidentellement bloquer des pages importantes. Saisissez l'URL à tester, et l'outil vous indique si elle est autorisée ou bloquée, ainsi que la règle responsable.

Vous devriez tester votre robots.txt après chaque modification, en particulier après des mises à jour majeures du site, des changements de thème ou des migrations. Cela ne prend que quelques secondes et peut vous éviter de désindexer accidentellement des parties de votre site.

Erreurs fréquentes dans le robots.txt sur les sites WordPress

Quelques erreurs reviennent régulièrement sur les sites WordPress :

Bloquer les fichiers CSS et JavaScript : certains anciens modèles de robots.txt bloquent /wp-content/ ou /wp-includes/ de manière trop large. Cela empêche Google d'accéder aux fichiers CSS et JS nécessaires au rendu de vos pages. Si Googlebot ne peut pas afficher correctement votre page, il ne peut pas l'évaluer correctement pour le classement. Autorisez toujours l'accès aux fichiers CSS et JavaScript.
Bloquer l'intégralité du site pendant le développement : les développeurs ajoutent souvent Disallow: / en phase de préproduction et oublient de le retirer avant la mise en ligne. WordPress propose un paramètre « Demander aux moteurs de recherche de ne pas indexer ce site » qui fait quelque chose de similaire, et cette option reste activée plus souvent qu'on ne le pense.
Utiliser robots.txt comme mesure de sécurité : le fichier est accessible publiquement. N'importe qui peut lire votre robots.txt et voir précisément les chemins que vous essayez de cacher. Si vous avez du contenu sensible, utilisez plutôt une authentification appropriée ou des contrôles d'accès côté serveur.
Règles contradictoires : lorsque vous avez plusieurs blocs User-agent avec des règles qui se chevauchent, le comportement peut être imprévisible. Google utilise la règle correspondante la plus spécifique, mais d'autres robots peuvent gérer les conflits différemment. Gardez votre robots.txt simple et évitez les blocs redondants.

Le robots.txt généré automatiquement par WordPress et comment le personnaliser

Si aucun fichier robots.txt physique n'existe à la racine de votre site WordPress, WordPress en génère automatiquement un virtuel. Ce fichier par défaut est minimal, contenant généralement uniquement la règle de blocage /wp-admin/ avec l'exception admin-ajax.php.

Vous avez trois options pour le personnaliser :

Créer un fichier physique : téléversez un fichier robots.txt à la racine de votre installation WordPress via FTP ou via le gestionnaire de fichiers de votre hébergeur. Cela remplace complètement la version virtuelle.
Utiliser une extension SEO : Yoast SEO et Rank Math proposent tous deux un éditeur de robots.txt dans l'administration WordPress, ce qui permet d'effectuer des modifications sans accès FTP.
Utiliser un hook de filtre : les développeurs peuvent modifier la sortie virtuelle du robots.txt à l'aide du filtre robots_txt de WordPress. Cette approche conserve la personnalisation dans le code, ce qui facilite son suivi via le contrôle de version.

Ce que vérifie InspectWP

InspectWP vérifie si votre site WordPress dispose d'un fichier robots.txt, analyse les règles qu'il contient et vérifie qu'une référence au sitemap est bien incluse. Il signale les problèmes courants tels que les directives sitemap manquantes, les règles disallow trop larges qui pourraient bloquer du contenu important, ainsi que les règles qui pourraient empêcher Google de rendre correctement vos pages.

Qu'est-ce que le fichier robots.txt ?

Comment fonctionne la syntaxe du robots.txt

Un exemple typique de robots.txt pour WordPress

robots.txt et la balise meta noindex

Comment Googlebot traite le robots.txt

Tester votre robots.txt avec la Google Search Console

Erreurs fréquentes dans le robots.txt sur les sites WordPress

Le robots.txt généré automatiquement par WordPress et comment le personnaliser

Ce que vérifie InspectWP

Qu'est-ce qu'un sitemap XML ?

Qu'est-ce qu'un certificat SSL ?

Articles liés

Qu'est-ce que HTTP/2 et HTTP/3 ? Guide pratique pour les sites WordPress

Que sont les custom post types WordPress ?

Qu’est ce qu’un block theme WordPress (Full Site Editing) ?

Vérifiez votre site WordPress dès maintenant