In dit kennisartikel gaan we in op alle aspecten die relevant zijn voor het crawlen van websites. We bespreken hoe het werkt, welke crawlers er zijn en hoe jij er invloed op kan uitoefenen. Lees je mee?

Expertise SEO

Door Rick de Bie

Belang van crawlen

Hoe werkt een crawler?

Tools voor crawl-optimalisatie

Welke crawlers zijn er?

Crawlbudget toegelicht

Checklist

Crawlen en indexatie

Introductie tot crawlen

Wanneer we het hebben over crawlen, dan hebben we het over de manier waarop zoekmachines zoals Google en Microsoft Bing jouw pagina’s vinden, deze bekijken en de informatie in hun database opslaan. Die eerste twee stappen behoren tot het crawlen. Het opslaan van de informatie in de database wordt ‘indexatie’ genoemd (een ander belangrijk begrip).

Crawlen en het optimaliseren ervan zijn zeer-technische onderdelen van SEO, dus zullen we proberen het op een toegankelijke manier uit te leggen.

Het belang van crawlen

Crawlen is een fundamenteel onderdeel van het proces van de zoekmachines. Door te crawlen kunnen ze namelijk nieuwe pagina’s ontdekken, of wijzigingen aan bestaande pagina’s meenemen in de index. Komt de crawler veel links (intern én extern) naar een pagina tegen, dan kan de crawler deze dus vaker verversen in de index, waardoor de kans groter wordt dat deze beter gaat scoren in de zoekresultaten of beter begrepen wordt door de zoekmachine. Het optimaal laten crawlen van jouw website is dus enorm belangrijk voor jouw SEO-succes!

Hoe werkt een crawler?

Een crawler, ook wel een spider, bot of robot genoemd, is in feite een systeem dat op het internet wordt losgelaten om deze te gaan ontdekken en de content die het tegenkomt te bekijken.

Wanneer het op een pagina een hyperlink naar een andere pagina tegenkomt, dan zal hij deze volgen en de volgende pagina bekijken. Zo crawlt de bot over het internet, als een spin in het web.

Het ontdekken en het bekijken van deze pagina’s is de eerste stap richting indexatie, ofwel: ‘het vastleggen van deze pagina’s in de database van de zoekmachine’.

Welke tools heb je voor crawl-optimalisatie?

Er zijn verschillende tools die jij kan inzetten om het voor de zoekmachine zo makkelijk mogelijk te maken om jouw website op een zo efficiënt mogelijke manier te crawlen.

Robots.txt

Met de robots.txt kan je aan robots van zoekmachines, SEO-tools en andere crawlers kenbaar maken welke gedeelten van de website niet gecrawled mogen worden. In hoofdlijnen is de robots.txt de eerste lijn van defensie. Je blokkeert de toegang tot irrelevante (of ongewenste) pagina's, mediabestanden en bronbestanden.

Sitemap.xml

Een XML-sitemap is een bestand dat zoekmachines kunnen gebruiken om in één keer overzicht te krijgen van alle pagina's, bestanden en paden binnen de website. Staat een URL in de sitemap, dan kent de zoekmachine de URL en is de kans dat deze gecrawled wordt stukken groter. De meeste CMS'en kunnen via een plug-in voorzien worden van een sitemap.

Links (intern én extern)

Zowel interne als externe links (ook wel 'hyperlinks') dragen bij aan de crawlbaarheid van jouw website. Hierin is het belangrijk dat de hyperlinks in de code voldoen aan alle HTML-standaarden. De zoekmachine kan de links volgen om nieuwe pagina's te ontdekken. Heeft de link een goede 'anchortekst', dan geeft dit de crawler ook wat context over de pagina waarnaar gelinkt wordt.

Meta-robots

De meta-name="robots" tag heeft (voor elke individuele pagina) twee belangrijke functies. Met 'index' en 'noindex' geef je aan of een pagina wel of niet in de index mag worden opgenomen. Daarnaast geef je met 'follow' en 'nofollow' aan of de hyperlinks op deze pagina door de zoekmachine gevolgd mogen worden. Dit is dus van invloed op het gedrag van de crawlers. Deze tags werken onafhankelijk van elkaar.

Welke crawlers zijn er?

Je hebt verschillende soorten crawlers die op jouw website kunnen komen, maar ze zijn vrijwel allemaal onder te verdelen in een van deze categorieën:

Type crawler	Bedrijven	Naam van bot(s)	Doel
Zoekmachines	Google Bing	GoogleBot, Adsbot Bingbot, AdIdxBot	Crawlen en Indexeren
LLM’s	OpenAI Anthropic	GPTBot, ChatGPT-User/2.0 ClaudeBot, anthropic-ai	Gebruik als zoekmachine, trainen van A.I.-modellen en uitvoeren van A.I.-taken.
SEO-tools	Ahrefs Moz Semrush	AhrefsBot Rogerbot SemrusBot	Rapporteren van websitesignalen (browser)
Crawl-tools	Screaming Frog	Screaming Frog SEO Spider	Rapporteren van websitesignalen (applicatie)

Het doel van de verschillende crawlers lopen uiteen. Waar de zoekmachines bezig zijn met het vinden van nieuwe, relevante pagina’s voor de index, zijn de tools vooral bezig de volledige site in kaart te brengen, om verbeterpunten te vinden voor het crawlen, indexeren en optimaliseren van de website.

Voor de meeste mensen die dit lezen zullen de bots van de A.I.-platforms nieuw zijn. Deze bots en crawlers werken namelijk net wat anders dan de bots van bijvoorbeeld Google. Omdat A.I.-platforms ook “taken” willen uitvoeren zien we dat deze opgesplitst kunnen worden in de bots die crawlen en zogenaamde users die taken uitvoeren. Tot slot heb je nog de crawlers die bedoeld zijn om de LLM’s te “trainen”. Voor jouw website dien je dus te bepalen waarvoor jij jouw content beschikbaar wilt stellen.

Hoe werkt crawlbudget?

Crawlbudget is in feite een indicatie van hoe vaak zoekmachines jouw website willen crawlen en hoelang ze dit willen doen. Er zit dus een maximum op, dat is logisch, want het internet is vele malen groter dan de index van de zoekmachines aankunnen. Hoeveel crawlbudget er voor jouw website is, hangt onder andere af van deze factoren:

Het totale aantal pagina’s de zoekmachine kan crawlen.
De populariteit van jouw website is (externe factoren dus).
In welke mate jouw website wordt vernieuwd of uitgebreid.

Hieruit kan je bijvoorbeeld al opmaken dat het belangrijk is dat de website ‘vers’ blijft, dat de zoekmachine links naar jouw website tegenkomt op andere sites en dat er genoeg informatie is om te crawlen.

Invloed uitoefenen op crawlbudget

Er zijn enkele manieren waarop je het crawlbudget of het gebruik ervan positief (of negatief) kan beïnvloeden. Allereerst is een goede technische gezondheid nodig. Negatieve response codes of slome response tijden zorgen ervoor dat het crawlbudget onjuist of inefficient wordt ingezet. Dit kan ervoor zorgen dat de zoekmachine lagere hoeveelheden crawlverzoeken uitvoert (zie grafiek).

Het toevoegen van content en het bijwerken van pagina’s zorgt voor een ‘versheid’ die de zoekmachine nodig heeft om geïnteresseerd te blijven. Dit zal een goede invloed hebben op het crawlbudget, net zoals de negatieve invloed wanneer de website verouderd en niet meer bijgewerkt wordt.

Checklist voor optimalisatie

Met de checklist hieronder kan je het crawlen van jouw website op een zo goed mogelijke manier optimaliseren. Lees de stappen door, mocht je meer informatie nodig hebben of kom je er niet uit, neem dan contact op!

Robots.txt is bijgewerkt

De robots.txt zet je in om de zoekmachine te weerhouden om bepaalde pagina’s te bezoeken. Voor kleine websites kan dit overbodig zijn, maar voor grotere websites (+1.000 pagina’s) kan je de zoekmachine weerhouden om irrelevante pagina’s te bezoeken. Oftewel, meer budget voor relevantere pagina’s.

Test: Test jouw robots.txt-bestand

Sitemap.xml-bestand is up-to-date

In de sitemap.xml horen al je pagina’s te staan die je geïndexeerd wilt hebben. De sitemap dient als menukaart voor zoekmachines, waarmee ze in één opslag kunnen zien welke pagina’s er te vinden en te crawlen zijn binnen de website. Verwijderde en omgeleide pagina’s kunnen er (gebruikelijk) beter niet instaan.

Creëer: Creëer een XML-sitemap

4xx, 3xx en 5xx-statuscodes gecontroleerd

Wanneer de crawlers negatieve statuscodes tegenkomt (lijst negatieve statuscodes voor crawlen) dan zal dit het tempo waarin het crawlt aanpassen. Je kan dit controleren door zelf regelmatig een crawl uit te voeren.

Overzicht pagina’s in Search Console gecontroleerd

In Google Search Console heb je overzicht van ‘Gevonden’, Gecrawlde’ en ‘Geïndexeerde’ pagina’s. Valt het je op dat een nieuwe of belangrijke pagina niet verschijnt in de zoekresultaten? Dan is de kans groot dat deze nog niet gevonden of geïndexeerd is. In dat geval kan je handmatig proberen indexering aan te vragen!

Snelle reactietijd van server

De reactietijd van de server is van invloed op het totale aantal pagina’s dat de crawler kan crawlen in een sessie. Heb je een langere (lees: tragere) Time-to-First-Bite, dan kan de crawler in een sessie minder pagina’s bezoeken en crawlen. Wat dus een negatieve invloed heeft op hoe snel wijzigingen of nieuwe pagina’s geïndexeerd worden. Test dit met PageSpeed Insights of check in Search Console de Crawlstatistieken.

Cruciale rol van crawlen tijdens een migratie

Tijdens de migratie van jouw website wil je dat de zoekmachine tijdig en accuraat de juiste pagina’s crawlt en indexeert, en de oude URL’s (waar nodig) uit de index haalt. Om die reden hebben zoekmachines zoals Google een mechanisme dat het crawlbudget en de frequentie omhoog gooit wanneer er site-wide veranderingen plaatsvinden, zoals een migratie. Wel zo fijn!

Crawlen en indexeren

Zoals gezegd is het crawlen van een of pagina de eerste stap die gezet moet worden, voordat deze vindbaar kan worden in de zoekmachine. Nadat deze gecrawld is, beoordeeld de zoekmachine of de pagina geïndexeerd gaat worden. Doorgaans, als de content uniek en relevant genoeg is, zal de zoekmachine deze opnemen in de index, waarna deze als resultaat getoond kan worden tijdens een zoekopdracht. Simpelweg volgt elke zoekmachine deze stappen:

Crawlen
Indexeren
Uitserveren

Het is niet altijd zó simpel, en elke stap kent vele processen, wiskundige formules en soms wat gebreken, maar in feite is dit hoe zoekmachines werken.

Veelgestelde vragen

Wat is een crawler?

Een crawler, ook wel een spider, bot of robot genoemd, is in feite een systeem dat op het internet wordt losgelaten om deze te gaan ontdekken en de content die de crawler vindt te bekijken.

Wat is het crawlbudget?

De zoekmachine hanteert per website een bepaalde hoeveelheid pagina’s die per dag gecrawled kan worden. Dit wordt het crawlbudget genoemd, en is dus per website anders. Het is gebaseerd op het geschatte aantal pagina’s waar de zoekmachine iets mee kan, hoe populair jouw website is en hoe vaak de pagina’s en content worden bijgewerkt.

Waarom is crawlen belangrijk?

De crawlbaarheid van een website zorgt ervoor dat deze en de inhoud vindbaar zijn in zoekmachines. Deze zoekmachines bepalen welke pagina’s relevant zijn om op te nemen in hun index, zodat ze vervolgens kunnen worden getoond in de zoekresultaten.

BRENG NU JOUW ZICHTBAARHEIDSPOTENTIEEL BOVEN WATER!

Ontdek je potentieel Daag ons uit

CRAWLEN, ZO WERKT HET: CRAWLERS, SPIDERS, EN ROBOTS

Introductie tot crawlen

Het belang van crawlen

Hoe werkt een crawler?

Welke tools heb je voor crawl-optimalisatie?

Welke crawlers zijn er?

Hoe werkt crawlbudget?

Invloed uitoefenen op crawlbudget

Checklist voor optimalisatie

Robots.txt is bijgewerkt

Sitemap.xml-bestand is up-to-date

4xx, 3xx en 5xx-statuscodes gecontroleerd

Overzicht pagina’s in Search Console gecontroleerd

Snelle reactietijd van server

Cruciale rol van crawlen tijdens een migratie

Crawlen en indexeren

Veelgestelde vragen

Wat is een crawler?

Wat is het crawlbudget?

Waarom is crawlen belangrijk?

BRENG NU JOUW ZICHTBAARHEIDSPOTENTIEEL BOVEN WATER!

WIJ ADVISEREN JE GRAAG

CRAWLEN, ZO WERKT HET: CRAWLERS, SPIDERS, EN ROBOTS

Introductie tot crawlen

Het belang van crawlen

Hoe werkt een crawler?

Welke tools heb je voor crawl-optimalisatie?

Welke crawlers zijn er?

Hoe werkt crawlbudget?

Invloed uitoefenen op crawlbudget

Checklist voor optimalisatie

Robots.txt is bijgewerkt

Sitemap.xml-bestand is up-to-date

4xx, 3xx en 5xx-statuscodes gecontroleerd

Overzicht pagina’s in Search Console gecontroleerd

Snelle reactietijd van server

Cruciale rol van crawlen tijdens een migratie

Crawlen en indexeren

Veelgestelde vragen

Wat is een crawler?

Wat is het crawlbudget?

Waarom is crawlen belangrijk?

BRENG NU JOUW ZICHT­BAAR­HEIDS­POTENTIEEL BOVEN WATER!

Bel mij terug!

WIJ ADVISEREN JE GRAAG

BRENG NU JOUW ZICHTBAARHEIDSPOTENTIEEL BOVEN WATER!