Wat is robots.txt?

Robots.txt is een tekstbestandje dat je in de root van de website zet. Middels een robots.txt bestand geef je bij crawlers aan welke delen van de website wel en niet bezocht mogen worden. Wanneer een website gecrawld wordt, zoekt de crawler altijd eerst naar de aanwezigheid van een robots.txt bestand. Zo weet de crawler direct welke delen van de pagina gecrawld mogen worden. De belangrijkste instructies in een robots.txt bestand zijn: User-agent, Allow, Disallow en een sitemapverwijzing. 

Waarom robots.txt gebruiken?

Je gebruikt een robots.txt bestand wanneer je niet wilt dat een of meerdere pagina’s worden gecrawld. Waarom je dat niet zou willen? Om ervoor te zorgen dat in plaats van die pagina’s, de belangrijke pagina’s worden gecrawld. Je stuurt de crawler dus als het ware de juiste kant op.

Daarnaast kun je hiermee besparen op het crawlbudget. Dat is een limiet op het aantal pagina’s dat een zoekmachine zal crawlen op een website in een bepaalde tijd. Dat doen ze omdat er nog miljoenen andere pagina’s te crawlen zijn. Het is voor een crawler dus niet mogelijk om urenlang jouw website te doorzoeken. Hoeveel pagina’s van jouw website worden gecrawld, is onder andere afhankelijk van de grootte en snelheid van je website. Om er dus voor te zorgen dat alle belangrijke pagina’s gecrawld worden, is het verstandig om onbelangrijke pagina’s in een robots.txt te voorzien van een disallow tag. 

Belangrijke aandachtspunten

Een robots.txt bestand is een erg handig hulpmiddel wanneer het goed gebruikt wordt. Echter kan verkeerd gebruik schadelijk zijn voor SEO resultaten. Daarom hebben we een aantal belangrijke aandachtspunten op een rij gezet:

  • Het bestand moet in de root van de website staan en moet robots.txt heten. Bijvoorbeeld: www.semwerkt.nl/robots.txt
  • Een grote misvatting is dat je middels een robots.txt bestand ervoor kunt zorgen dat pagina’s niet worden geïndexeerd. Dat is niet juist. Indexatie kan nog steeds voorkomen wanneer externe websites verwijzen naar die pagina’s.
  • Indexatie voorkom je door gebruik te maken van een noindex tag.
  • Het robots.txt bestand is voor iedereen bereikbaar. Zet er dus geen gevoelige informatie in zoals wachtwoorden of privacygegevens.
  • Je site kan maar één robots.txt bestand bevatten.
  • De instructies in het bestand worden niet altijd opgevolgd. De crawler bepaalt of hij dat wel of niet doet. Google en de meeste andere gerespecteerde zoekmachines respecteren de robots.txt vrijwel altijd, maar er zijn bots die het niet doen. Bijvoorbeeld malware-bots die op zoek zijn naar gevoelige informatie.

Hoe maak je een robots.txt bestand?

In een robots.txt bestand kun je meerdere groepen toevoegen. Zo kun je voor verschillende bots bepalen welke instructies je wil geven. Bijvoorbeeld als je wil dat een pagina wel voor de Bingbot is afgeschermd, maar niet voor de Googlebot. 

Dit is wat de vier belangrijkste instructies betekenen:

  • User-agent gebruik je om aan te geven voor welke robot die groep geldt. Bijvoorbeeld: ‘User-agent: Googlebot’ geeft aan dat die groep voor de Googlebot geldt. ‘User-agent: *’ geeft aan dat die groep voor alle bots geldt (behalve voor Adsbot, die moet altijd expliciet worden genoemd).
  • Een disallow-tag geeft aan welke pagina’s of subfolders niet gevolgd mogen worden.
  • Met een allow-tag geef je aan welke dan weer wel gevolgd mogen worden. 

Op deze manier zou dit eruit kunnen zien:

User-agent: *
Disallow: /diensten/
Allow: /diensten/bepaaldedienst/

Nu wordt tegen elke user-agent gezegd dat de URL’s met www.site.nl/diensten/ niet gecrawld mogen worden, behalve de pagina www.site.nl/diensten/bepaaldedienst/. Dat kunnen natuurlijk ook meer pagina’s zijn. Bijvoorbeeld omdat je binnen die subfolder nog meer subfolders hebt. Als voorbeeld:

  • www.site.nl/diensten/bepaaldedienst/dienst1/ 
  • www.site.nl/diensten/bepaaldedienst/dienst2/ 

De hiërarchie van een robots.txt

Soms maakt het ook uit in welke volgorde je de disallow en allow gebruikt. Standaard geldt namelijk dat de bovenste regel leidend is. Het voorbeeld hierboven is dus eigenlijk fout, aangezien de disallow de bovenste regel is. Die zal dus als belangrijker worden gezien, waardoor de allow tag wordt genegeerd. Voor Google en Bing geldt dit echter niet.

Bij de Googlebot en Bingbot wint de meest specifieke regel het. Hierbij geldt: hoe meer tekens, hoe specifieker. In dat geval klopt het bovenstaande voorbeeld wel, aangezien de allow tag langer (dus specifieker) is dan de disallow tag. Wil je zeker weten dat je het goed doet? Plaats dan de allow tag boven de disallow tag en zorg ervoor dat de allow tag specifieker is dan de disallow tag.

Wat is een crawl delay en hoe gebruik ik het?

In een robots.txt bestand kun je ook een crawl delay toepassen. Op die manier geef je aan hoe lang de crawler moet wachten tot de volgende pagina gecrawld mag worden. Dit is handig als de crawlers te snel crawlen en ervoor zorgen dat de webserver overbelast raakt. Echter heeft Google in 2019 op 2 juli aangegeven dat ze de crawl delay regel negeren. In dit artikel van Google lees je het statement van Google. Een alternatief hiervoor is de crawl rate instelling in Google Search Console. Hoe je dit doet, lees je hier. Wel adviseren wij om de crawl rate niet te beïnvloeden als je site het niet aan kan. Je kunt beter eerst kijken naar het optimaliseren van pagina laadtijden, serversnelheid en capaciteit om de website sneller te maken. 

Robots.txt bestand controleren met de robots.txt tester

Om te testen of je robots.txt bestand juist is en of de URL’s daadwerkelijk geblokkeerd worden voor de crawlers, heeft Google een robots.txt tester gemaakt. Hoe je die gebruikt en wat je hier precies mee kan, lees je in dit artikel van Google over de robots.txt tester. Hier vind je tevens een link naar de robots.txt tester.

Robots.txt generator

Er zijn op het internet verschillende websites te vinden waarop je erg gemakkelijk robots.txt bestanden kunt maken. Zo hoef je de code niet zelf te typen en hoef je alleen maar de gewenste instellingen en URL’s in te vullen. Hieronder vind je een aantal links naar handige robots.txt generators:

https://www.seoptimer.com/robots-txt-generator

https://en.ryte.com/free-tools/robots-txt-generator/

https://smallseotools.com/robots-txt-generator/

Google heeft ook een uitgebreid artikel gemaakt over robots.txt. Hierin kun je vinden wat Google aanraadt bij het maken van een robots.txt bestand. Ook staat hierin uitgelegd hoe je dit doet en onderaan vind je een mooi overzicht van de verschillende regels die je kunt gebruiken en het effect ervan. 

Meer weten?

Neem dan contact met ons op via het directe nummer +31(0)229 763 561
of stuur een e-mail naar info@semwerkt.nl. De experts van Semwerkt staan voor je klaar!