Wat is robots.txt?

Het bestand robots.txt is een platte tekstbestand dat in de hoofdmap van uw website wordt geplaatst (https://example.com/robots.txt) en zoekmachine-crawlers vertelt welke pagina's of secties van uw site zij wel of niet mogen bezoeken. Het bestaat sinds 1994 en is een van de oudste standaarden op het web. Elke serieuze zoekmachine respecteert het, al is het belangrijk te begrijpen wat het wel en niet kan.

Hoe de robots.txt-syntaxis werkt

Het bestand gebruikt een eenvoudige, regelgebaseerde syntaxis. Elk blok begint met een User-agent-regel die aangeeft op welke crawler de regels van toepassing zijn, gevolgd door een of meer Disallow- of Allow-richtlijnen. Hier volgt een volledig overzicht van alle ondersteunde richtlijnen:

User-agent: identificeert de crawler. Gebruik * voor alle crawlers, of specificeer een bepaalde bot zoals Googlebot, Bingbot of GPTBot.
Disallow: vertelt de crawler het opgegeven pad niet te bezoeken. Disallow: /private/ blokkeert alles onder de map /private/. Een leeg Disallow: betekent dat niets wordt geblokkeerd.
Allow: heft een Disallow-regel op voor een specifiek pad. Handig wanneer u een map wilt blokkeren maar toegang tot bepaalde bestanden daarbinnen wilt toestaan.
Sitemap: geeft de URL van uw XML-sitemap aan. Dit is technisch geen onderdeel van de oorspronkelijke robots.txt-standaard, maar alle grote zoekmachines ondersteunen het.
Crawl-delay: vertelt de crawler een opgegeven aantal seconden te wachten tussen verzoeken. Google negeert deze richtlijn (u kunt in plaats daarvan in Search Console de scanfrequentie instellen), maar Bing en sommige andere crawlers respecteren hem.

Een typisch WordPress-robots.txt-voorbeeld

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /xmlrpc.php
Disallow: /?s=
Disallow: /search/

Sitemap: https://example.com/sitemap_index.xml

Laten we doornemen wat elke regel doet:

Disallow: /wp-admin/: voorkomt dat crawlers het WordPress-beheergedeelte bezoeken. Er is geen reden voor zoekmachines om uw dashboard te scannen.
Allow: /wp-admin/admin-ajax.php: deze uitzondering is belangrijk omdat veel thema's en plug-ins admin-ajax.php gebruiken voor functionaliteit aan de voorkant. Dit blokkeren kan functies op uw publieke pagina's stukmaken.
Disallow: /wp-includes/: blokkeert de WordPress-core-includes-map, die systeembestanden bevat die niet bedoeld zijn voor indexering.
Disallow: /readme.html: verbergt het WordPress-readme-bestand dat uw WordPress-versie onthult.
Disallow: /xmlrpc.php: blokkeert de toegang tot het XML-RPC-eindpunt, dat regelmatig doelwit is van brute-force-aanvallen.
Disallow: /?s= en Disallow: /search/: voorkomt indexering van interne zoekresultaatpagina's, die weinig waarde hebben en duplicate content kunnen creëren.

robots.txt versus de noindex-metatag

Dit is een van de meest verkeerd begrepen onderscheiden in SEO. Veel site-eigenaren denken dat het blokkeren van een pagina in robots.txt voorkomt dat deze in zoekresultaten verschijnt. Dat is niet het geval.

robots.txt regelt het scannen: het vertelt zoekmachines een specifieke URL niet te bezoeken. Maar als andere websites naar die URL linken, kan Google deze alsnog indexeren en de URL in zoekresultaten tonen met een opmerking als "Voor deze pagina is geen informatie beschikbaar".

De noindex-metatag regelt indexering: deze vertelt zoekmachines "u mag deze pagina scannen, maar neem haar niet op in uw zoekresultaten". Het cruciale punt is dat Google de pagina daadwerkelijk moet kunnen scannen om de noindex-richtlijn te zien. Blokkeert u een pagina in robots.txt EN voegt u een noindex-tag toe, dan kan Google de pagina niet scannen om de noindex-tag te ontdekken, dus kan de URL alsnog op basis van externe signalen worden geïndexeerd.

De vuistregel: gebruik robots.txt om scanbudget te beheren en crawlers buiten serverzijdige gebieden te houden. Gebruik noindex wanneer u een pagina volledig uit zoekresultaten wilt verwijderen.

Hoe Googlebot omgaat met robots.txt

Google controleert uw robots.txt-bestand regelmatig en cachet het doorgaans tot 24 uur. Kan Google het bestand niet ophalen (bijvoorbeeld omdat uw server een 500-fout retourneert), dan stopt Google tijdelijk met het scannen van uw site, voor alle zekerheid. Een 404-respons wordt daarentegen geïnterpreteerd als "geen beperkingen", wat betekent dat Google alles zal scannen.

Google ondersteunt ook patroonherkenning in robots.txt-paden. U kunt * als wildcard en $ gebruiken om het einde van een URL aan te geven:

Disallow: /*.pdf$
Disallow: /category/*/page/

De eerste regel blokkeert alle PDF-bestanden op de hele site. De tweede blokkeert pagineringspagina's binnen categorie-archieven.

Uw robots.txt testen met Google Search Console

Google Search Console bevat een robots.txt-tester waarmee u kunt controleren of een specifieke URL is geblokkeerd. Dit is waardevol na wijzigingen aan uw robots.txt, aangezien een kleine typefout per ongeluk belangrijke pagina's kan blokkeren. Voer de URL in die u wilt testen, en de tool vertelt u of deze is toegestaan of geblokkeerd, en welke regel daarvoor verantwoordelijk is.

U dient uw robots.txt na elke wijziging te testen, vooral na grote site-updates, themawijzigingen of migraties. Het kost slechts enkele seconden en kan voorkomen dat u per ongeluk delen van uw site uit de index haalt.

Veelvoorkomende robots.txt-fouten op WordPress-sites

Een aantal fouten komt herhaaldelijk voor op WordPress-sites:

CSS- en JavaScript-bestanden blokkeren: sommige oudere robots.txt-templates blokkeren /wp-content/ of /wp-includes/ in brede zin. Dit voorkomt dat Google de CSS- en JS-bestanden bereikt die het nodig heeft om uw pagina's weer te geven. Kan Googlebot uw pagina niet correct renderen, dan kan het deze niet juist beoordelen voor ranking. Geef altijd toegang tot CSS- en JavaScript-bestanden.
De gehele site blokkeren tijdens ontwikkeling: ontwikkelaars voegen vaak Disallow: / toe tijdens staging en vergeten dit voor de lancering te verwijderen. WordPress heeft een instelling "Zoekmachines ontmoedigen" die iets vergelijkbaars doet, en deze blijft vaker aan staan dan u zou verwachten.
robots.txt als beveiligingsmaatregel gebruiken: het bestand is openbaar toegankelijk. Iedereen kan uw robots.txt lezen en precies zien welke paden u probeert te verbergen. Heeft u gevoelige inhoud, gebruik dan in plaats daarvan correcte authenticatie of serverzijdige toegangscontroles.
Conflicterende regels: heeft u meerdere User-agent-blokken met overlappende regels, dan kan het gedrag onvoorspelbaar zijn. Google gebruikt de meest specifieke overeenkomende regel, maar andere crawlers kunnen conflicten anders afhandelen. Houd uw robots.txt eenvoudig en vermijd overbodige blokken.

Automatisch gegenereerde WordPress-robots.txt en hoe deze aan te passen

Bevindt zich geen fysiek robots.txt-bestand in uw WordPress-hoofdmap, dan genereert WordPress automatisch een virtueel bestand. Dit standaardbestand is minimaal en bevat doorgaans alleen de /wp-admin/-disallow-regel met de admin-ajax.php-uitzondering.

U heeft drie mogelijkheden om dit aan te passen:

Een fysiek bestand aanmaken: upload een robots.txt-bestand naar uw WordPress-hoofdmap via FTP of de bestandsbeheerder van uw host. Dit overschrijft de virtuele versie volledig.
Een SEO-plug-in gebruiken: zowel Yoast SEO als Rank Math bieden in het WordPress-beheerpaneel een robots.txt-editor, zodat u wijzigingen kunt aanbrengen zonder FTP-toegang.
Een filterhook gebruiken: ontwikkelaars kunnen de virtuele robots.txt-output aanpassen via de robots_txt-filter in WordPress. Deze aanpak houdt de aanpassing in code, wat het volgen ervan via versiebeheer eenvoudiger maakt.

Wat InspectWP controleert

InspectWP controleert of uw WordPress-site een robots.txt-bestand heeft, analyseert de regels die het bevat en verifieert of een sitemap-verwijzing is opgenomen. Het markeert veelvoorkomende problemen zoals ontbrekende sitemap-richtlijnen, te brede disallow-regels die belangrijke inhoud kunnen blokkeren, en regels die kunnen voorkomen dat Google uw pagina's correct rendert.

Wat is robots.txt?

Hoe de robots.txt-syntaxis werkt

Een typisch WordPress-robots.txt-voorbeeld

robots.txt versus de noindex-metatag

Hoe Googlebot omgaat met robots.txt

Uw robots.txt testen met Google Search Console

Veelvoorkomende robots.txt-fouten op WordPress-sites

Automatisch gegenereerde WordPress-robots.txt en hoe deze aan te passen

Wat InspectWP controleert

Wat is een XML-sitemap?

Wat is een SSL-certificaat?

Gerelateerde artikelen

Wat zijn HTTP/2 en HTTP/3? Een praktische gids voor WordPress-sites

Wat zijn WordPress custom post types?

Wat is een WordPress block theme (Full Site Editing)?

Controleer nu uw WordPress-site