Robots.txt
Wat is robots.txt?
Een robots.txt-bestand is een eenvoudig tekstbestand dat je in de root van je website plaatst. Het dient als een gids voor webcrawlers (robots) en geeft aan welke delen van de website ze wel en niet mogen bezoeken. Wanneer een crawler je website bezoekt, kijkt hij eerst naar de aanwezigheid van een robots.txt-bestand om te zien welke pagina’s hij mag crawlen.
Belangrijke instructies in een robots.txt-bestand
Er zijn enkele instructies die je in een robots.txt-bestand kunt opnemen om de toegang van crawlers te regelen:
- User-agent: hiermee geef je aan voor welke crawler de regels gelden. Bijvoorbeeld, ‘User-agent: *’ geldt voor alle crawlers;
- Allow: hiermee geef je specifieke pagina’s of directories aan die wél gecrawld mogen worden;
- Disallow: hiermee geef je aan welke pagina’s of directories niet gecrawld mogen worden;
- Sitemap-verwijzing: hiermee wijs je crawlers naar de locatie van je sitemap om ervoor te zorgen dat ze de belangrijkste pagina’s van je website vinden.
Voorbeeld van een robots.txt-bestand
In dit voorbeeld worden alle crawlers geïnstrueerd om de /admin/-directory niet te crawlen, terwijl de /public/-directory wel toegankelijk is. Daarnaast wordt verwezen naar de sitemap van de website. Let op: Dit voorbeeld klopt niet helemaal qua uitvoering—zie later uitleg over hiërarchie van regels.
Waarom een robots.txt-bestand gebruiken?
Wil je dat zoekmachines alleen de belangrijke pagina’s van je website crawlen en indexeren? Een robots.txt-bestand helpt je om dit te bereiken door zoekmachines te sturen naar de juiste delen van je website.
Beheer welke pagina’s worden gecrawld
Met een robots.txt-bestand kun je aangeven welke pagina’s en directories zoekmachines wel en niet mogen bezoeken. Dit is handig om te voorkomen dat bepaalde delen van je website, zoals administratieve pagina’s of testomgevingen, worden gecrawld en opgenomen in zoekresultaten. Door de crawler te sturen, zorg je ervoor dat alleen de waardevolle en relevante content van je website wordt geïndexeerd. Let wel op: crawlers kunnen deze suggesties negeren.
Bespaar op het crawlbudget
Zoekmachines hebben een limiet op het aantal pagina’s dat ze binnen een bepaalde tijd op een website zullen crawlen, het zogenaamde crawlbudget. Door onbelangrijke pagina’s uit te sluiten met een robots.txt-bestand, zorg je ervoor dat zoekmachines hun beperkte tijd en budget besteden aan de pagina’s die er echt toe doen.
Stuur crawlers de juiste kant op
Een goed geconfigureerd robots.txt-bestand helpt crawlers om efficiënt door je website te navigeren. Dit betekent dat ze de belangrijkste pagina’s sneller en vaker kunnen bezoeken, wat kan bijdragen aan een betere indexering en hogere posities in zoekresultaten.
Hoe maak je een robots.txt bestand?
Volg deze stappen om een robots.txt-bestand op te stellen:
- Open een teksteditor: gebruik een eenvoudige teksteditor zoals Notepad of TextEdit om je robots.txt-bestand aan te maken;
- Definieer de user-agent: begin met het specificeren van de crawlers waarvoor je de regels opstelt, bijvoorbeeld User-agent: * voor alle crawlers;
- Voeg regels toe: definieer met Allow en Disallow welke directories of pagina’s toegestaan of geblokkeerd worden;
- Voeg een sitemap-verwijzing toe: als je een sitemap hebt, geef dan de locatie aan met Sitemap: http://www.jouwwebsite.nl/sitemap.xml;
- Sla het bestand op: sla het bestand op als robots.txt en plaats het in de root-directory van je website.
De hiërarchie van een robots.txt
Soms maakt de volgorde tussen ‘Allow’ en ‘Disallow’ uit. Standaard geldt namelijk dat de bovenste regel leidend is. Een disallow-regel boven een allow-regel kan ervoor zorgen dat de allow mogelijk genegeerd wordt. Plaats daarom de allow-tag boven de disallow-tag en zorg dat de allow-regel specifieker is dan de disallow-regel om eventuele conflicten te vermijden.
Wat is een crawl delay en hoe gebruik ik het?
In een robots.txt-bestand kun je ook een crawldelay toepassen, waarmee je aangeeft hoe lang de crawler moet wachten tot de volgende pagina gecrawld mag worden. Google heeft op 2 juli 2019 aangegeven dat ze de crawldelay-regel negeren. Een alternatief is de crawlrate-instelling in Google Search Console. Optimaliseer liever paginalaadtijden, serversnelheid en capaciteit in plaats van de crawlrate te beïnvloeden.
Robots.txt bestand controleren met de robots.txt tester
Om te testen of je robots.txt bestand correct is en of URL’s daadwerkelijk worden geblokkeerd voor crawlers, kun je de robots.txt tester van Google gebruiken.
Robots.txt generator
Er zijn online websites die je helpen om robots.txt-bestanden te maken zonder dat je de code zelf hoeft te typen. Hieronder enkele handige tools:
- SEOptimer robots.txt generator
- SmallSEOTools robots.txt generator
- Google heeft ook een uitgebreid artikel over robots.txt, waarin aanbevolen richtlijnen en voorbeelden staan.
Belangrijke aandachtspunten
Een robots.txt bestand is erg handig bij correct gebruik, maar verkeerde toepassing kan schadelijk zijn voor je SEO-resultaten. Let op de volgende zaken:
- Het bestand moet in de root van de website staan en moet robots.txt heten, bijvoorbeeld: www.semwerkt.nl/robots.txt;
- Een botsuggestie in robots.txt voorkomt niet altijd dat pagina’s geïndexeerd worden, zeker wanneer externe websites naar die pagina’s linken. Gebruik hiervoor een noindex-tag;
- Het robots.txt bestand is openbaar en voor iedereen bereikbaar—zet er dus geen gevoelige informatie in;
- Je site kan maar één robots.txt bestand bevatten;
- De instructies in het bestand worden niet altijd opgevolgd—Google en de meeste zoekmachines volgen ze, maar sommige bots (zoals malware-bots) kunnen ze negeren.

