Kennisbank

Wat is Crawlen?

Crawlen is een proces waarbij een computerprogramma - ook wel een "crawler" of "spider" genoemd - websites op het internet doorzoekt en informatie verzamelt. Deze informatie kan tekst, afbeeldingen, links en andere gegevens bevatten. Crawlers worden meestal gebruikt door zoekmachines zoals Google om webpagina's te indexeren, zodat gebruikers relevante zoekresultaten vinden wanneer ze zoekopdrachten uitvoeren.

‍

Hoe vaak crawlt Google?

Over het algemeen probeert Google websites regelmatig te crawlen om ervoor te zorgen dat de zoekresultaten actueel en relevant blijven. Als eigenaar van een website of webshop is het daarom belangrijk om je website up-to-date te houden en te zorgen voor een goede technische infrastructuur. Zo kan Google je site effectief crawlen en indexeren. Het gebruik van tools zoals Google Search Console helpt je bij het monitoren van de crawlfrequentie en het identificeren van eventuele crawlfouten.

‍

‍

Wat zijn crawlfouten?

Crawlfouten zijn problemen die zich voordoen tijdens het crawl-proces. Deze fouten kunnen verschillende oorzaken hebben en hebben - als ze voorkomen - bijna altijd invloed op hoe zoekmachines de inhoud van je website indexeren en weergeven. Enkele veelvoorkomende crawlfouten zijn:

‍

404-Fouten: foutmeldingen die optreden wanneer een webpagina niet gevonden kan worden;
Geblokkeerde pagina's: als de instructies in het robots.txt-bestand van een website crawlers verbieden toegang te krijgen tot bepaalde pagina's;
Timeout-fouten: fouten die optreden als een server niet snel genoeg reageert op het verzoek van een crawler;
Serverfouten: qls de webserver een interne fout heeft, zoals een mislukte databaseverbinding;
Redirect loops: als er verkeerd geconfigureerde omleidingen zijn;
Gebroken links: als er gebroken links op je website staan;
Duplicate content: foutmeldingen die ontstaan door het hebben van dezelfde inhoud op meerdere pagina's.

‍

Waarom is het belangrijk om crawlfouten op te lossen?

Het identificeren en oplossen van crawlfouten is belangrijk om ervoor te zorgen dat zoekmachines de inhoud van een website correct indexeren. Onze SEO-specialisten gebruiken tools zoals Google Search Console om deze fouten te identificeren en te verhelpen, om de zichtbaarheid van je website in zoekresultaten te verbeteren.

‍

Wat is een crawlbudget?

Een crawlbudget is een concept dat verwijst naar het maximumaantal webpagina's van je website dat een zoekmachine bereid is te crawlen. Het crawlbudget is geen vast aantal pagina's, maar eerder een toewijzing van middelen die een zoekmachine aan een specifieke website toekent. Hoeveel budget per website beschikbaar is, hangt af van onder andere de grootte en de autoriteit van het domein. Hierbij is het belangrijk om de laadsnelheid van je website op orde te hebben. Laden je pagina's niet snel genoeg, dan raakt Googlebot snel door het budget heen en worden minder pagina's bekeken - wat effect heeft op indexering en ranking.

‍

Welke factoren beïnvloeden je crawlbudget?

‍

Contentkwaliteit van je website;
Hoe vaak je nieuwe content plaatst;
Hoe snel de server-respons van je site is;
Of je canonicals voor duplicate content goed zijn ingesteld;
Welke instructies er in het robots.txt-bestand van je site staan.

‍

Hoe voorkom je dat Google je website crawlt?

Om te voorkomen dat zoekmachines je website crawlen, kun je specifieke instructies opnemen in je robots.txt-bestand. Bijvoorbeeld:

‍

Alles blokkeren voor alle zoekmachines:‍

Als je wilt voorkomen dat alle zoekmachines je website crawlen, kun je het volgende in je robots.txt-bestand plaatsen:

User-agent: *
Disallow: /

Hiermee geef je aan dat alle webcrawlers (User-agent: *) geen toegang hebben tot de pagina’s op je website (Disallow: /).

‍

Alles blokkeren voor een specifieke zoekmachine:‍

Als je specifiek wilt voorkomen dat een bepaalde zoekmachine (zoals Google) je website crawlt, kun je de naam van die zoekmachinebot gebruiken. Bijvoorbeeld:

User-agent: Googlebot
Disallow: /

De dingen die je in je robots.txt zet, zijn slechts een aanbeveling voor zoekmachines en niet alle zoekmachines zullen deze instructies altijd volgen. Als je volledige privacy wilt of wilt voorkomen dat anderen je website kunnen bezoeken, is het beter om andere beveiligingsmaatregelen te overwegen. Denk hierbij aan het instellen van wachtwoorden of het beperken van de toegang tot specifieke gebruikers.

‍

Wat zijn noindex en nofollow?

Noindex en nofollow zijn twee andere instructies die je kunt gebruiken om zoekmachines te vertellen hoe ze met specifieke webpagina's en links moeten omgaan. Deze instructies zet je in de HTML-meta-tags. Noindex betekent dat je pagina nog wel wordt gecrawled, maar dat die niet zichtbaar is in de zoekresultaten.

Voor noindex gebruik je de volgende code:

<meta name="robots" content="noindex">

Voor nofollow gebruik je deze code:

<a href="https://www.example.com" rel="nofollow">Link naar voorbeeld</a>

Gebruik je deze code, dan wordt je pagina wel gecrawld, geïndexeerd en getoond in de zoekresultaten, maar krijgt de desbetreffende link geen linkwaarde mee van de bron.

‍

‍

Hulp nodig bij de indexatie van jouw website?

Wil jij hoog in de zoekresultaten van Google en Bing komen te staan? Neem dan contact met ons op via ons vaste nummer +31 (0)229 763 561 of stuur een e-mail naar info@semwerkt.nl. Wij helpen jouw bedrijf online groeien!

Meer weten?

Neem dan contact met ons op via het directe nummer +31(0)229 763 561
of stuur een e-mail naar info@semwerkt.nl. De experts van Semwerkt staan voor je klaar!