Robots.txt is een tekstbestandje dat je in de root van de website zet. Middels een robots.txt bestand geef je bij crawlers aan welke delen van de website wel en niet bezocht mogen worden. Wanneer een website gecrawld wordt, zoekt de crawler altijd eerst naar de aanwezigheid van een robots.txt bestand. Zo weet de crawler direct welke delen van de pagina gecrawld mogen worden. De belangrijkste instructies in een robots.txt bestand zijn: User-agent, Allow, Disallow en een sitemapverwijzing.
Je gebruikt een robots.txt bestand wanneer je niet wilt dat een of meerdere pagina’s worden gecrawld. Waarom je dat niet zou willen? Om ervoor te zorgen dat in plaats van die pagina’s, de belangrijke pagina’s worden gecrawld. Je stuurt de crawler dus als het ware de juiste kant op.
Daarnaast kun je hiermee besparen op het crawlbudget. Dat is een limiet op het aantal pagina’s dat een zoekmachine zal crawlen op een website in een bepaalde tijd. Dat doen ze omdat er nog miljoenen andere pagina’s te crawlen zijn. Het is voor een crawler dus niet mogelijk om urenlang jouw website te doorzoeken. Hoeveel pagina’s van jouw website worden gecrawld, is onder andere afhankelijk van de grootte en snelheid van je website. Om er dus voor te zorgen dat alle belangrijke pagina’s gecrawld worden, is het verstandig om onbelangrijke pagina’s in een robots.txt te voorzien van een disallow tag.
Een robots.txt bestand is een erg handig hulpmiddel wanneer het goed gebruikt wordt. Echter kan verkeerd gebruik schadelijk zijn voor SEO resultaten. Daarom hebben we een aantal belangrijke aandachtspunten op een rij gezet:
In een robots.txt bestand kun je meerdere groepen toevoegen. Zo kun je voor verschillende bots bepalen welke instructies je wil geven. Bijvoorbeeld als je wil dat een pagina wel voor de Bingbot is afgeschermd, maar niet voor de Googlebot.
Dit is wat de vier belangrijkste instructies betekenen:
Op deze manier zou dit eruit kunnen zien:
User-agent: *
Disallow: /diensten/
Allow: /diensten/bepaaldedienst/
Nu wordt tegen elke user-agent gezegd dat de URL’s met www.site.nl/diensten/ niet gecrawld mogen worden, behalve de pagina www.site.nl/diensten/bepaaldedienst/. Dat kunnen natuurlijk ook meer pagina’s zijn. Bijvoorbeeld omdat je binnen die subfolder nog meer subfolders hebt. Als voorbeeld:
Soms maakt het ook uit in welke volgorde je de disallow en allow gebruikt. Standaard geldt namelijk dat de bovenste regel leidend is. Het voorbeeld hierboven is dus eigenlijk fout, aangezien de disallow de bovenste regel is. Die zal dus als belangrijker worden gezien, waardoor de allow tag wordt genegeerd. Voor Google en Bing geldt dit echter niet.
Bij de Googlebot en Bingbot wint de meest specifieke regel het. Hierbij geldt: hoe meer tekens, hoe specifieker. In dat geval klopt het bovenstaande voorbeeld wel, aangezien de allow tag langer (dus specifieker) is dan de disallow tag. Wil je zeker weten dat je het goed doet? Plaats dan de allow tag boven de disallow tag en zorg ervoor dat de allow tag specifieker is dan de disallow tag.
In een robots.txt bestand kun je ook een crawl delay toepassen. Op die manier geef je aan hoe lang de crawler moet wachten tot de volgende pagina gecrawld mag worden. Dit is handig als de crawlers te snel crawlen en ervoor zorgen dat de webserver overbelast raakt. Echter heeft Google in 2019 op 2 juli aangegeven dat ze de crawl delay regel negeren. In dit artikel van Google lees je het statement van Google. Een alternatief hiervoor is de crawl rate instelling in Google Search Console. Hoe je dit doet, lees je hier. Wel adviseren wij om de crawl rate niet te beïnvloeden als je site het niet aan kan. Je kunt beter eerst kijken naar het optimaliseren van pagina laadtijden, serversnelheid en capaciteit om de website sneller te maken.
Om te testen of je robots.txt bestand juist is en of de URL’s daadwerkelijk geblokkeerd worden voor de crawlers, heeft Google een robots.txt tester gemaakt. Hoe je die gebruikt en wat je hier precies mee kan, lees je in dit artikel van Google over de robots.txt tester. Hier vind je tevens een link naar de robots.txt tester.
Er zijn op het internet verschillende websites te vinden waarop je erg gemakkelijk robots.txt bestanden kunt maken. Zo hoef je de code niet zelf te typen en hoef je alleen maar de gewenste instellingen en URL’s in te vullen. Hieronder vind je een aantal links naar handige robots.txt generators:
https://www.seoptimer.com/robots-txt-generator
https://en.ryte.com/free-tools/robots-txt-generator/
https://smallseotools.com/robots-txt-generator/
Google heeft ook een uitgebreid artikel gemaakt over robots.txt. Hierin kun je vinden wat Google aanraadt bij het maken van een robots.txt bestand. Ook staat hierin uitgelegd hoe je dit doet en onderaan vind je een mooi overzicht van de verschillende regels die je kunt gebruiken en het effect ervan.
Neem dan contact met ons op via het directe nummer +31(0)229 763 561
of stuur een e-mail naar info@semwerkt.nl. De experts van Semwerkt staan voor je klaar!