Introductie tot crawlen

Wanneer we het hebben over crawlen, dan hebben we het over de manier waarop zoekmachines zoals Google en Microsoft Bing jouw pagina's vinden, deze bekijken en de informatie in hun database opslaan. Die eerste twee stappen behoren tot het crawlen. Het opslaan van de informatie in de database wordt 'indexatie' genoemd (een ander belangrijk begrip).

Crawlen en het optimaliseren ervan zijn zeer-technische onderdelen van SEO, dus zullen we proberen het op een toegankelijke manier uit te leggen.

Het belang van crawlen

Crawlen is een fundamenteel onderdeel van het proces van de zoekmachines. Door te crawlen kunnen ze namelijk nieuwe pagina's ontdekken, of wijzigingen aan bestaande pagina's meenemen in de index. Komt de crawler veel links (intern én extern) naar een pagina tegen, dan kan de crawler deze dus vaker verversen in de index, waardoor de kans groter wordt dat deze beter gaat scoren in de zoekresultaten of beter begrepen wordt door de zoekmachine. Het optimaal laten crawlen van jouw website is dus enorm belangrijk voor jouw SEO-succes!

Interne links

Hoe werkt een crawler?

Een crawler, ook wel een spider, bot of robot genoemd, is in feite een systeem dat op het internet wordt losgelaten om deze te gaan ontdekken en de content die het tegenkomt te bekijken.

Wanneer het op een pagina een hyperlink naar een andere pagina tegenkomt (zie afbeelding), dan zal hij deze volgen en de volgende pagina bekijken. Zo crawlt de bot over het internet, als een spin in het web.

Het ontdekken en het bekijken van deze pagina's is de eerste stap richting indexatie, ofwel: 'het vastleggen van deze pagina's in de database van de zoekmachine'.

Welke tools heb je voor crawl-optimalisatie?

Er zijn verschillende tools die jij kan inzetten om het voor de zoekmachine zo makkelijk mogelijk te maken om jouw website op een zo efficiënt mogelijke manier te crawlen.

Robots.txt

Met de robots.txt kan je aan robots van zoekmachines, SEO-tools en andere crawlers kenbaar maken welke gedeelten van de website niet gecrawled mogen worden. In hoofdlijnen is de robots.txt de eerste lijn van defensie. Je blokkeert de toegang tot irrelevante (of ongewenste) pagina's, mediabestanden en bronbestanden.


Test: Test jouw robots.txt-bestand

Bron: Google Search Central

Sitemap.xml

Een XML-sitemap is een bestand dat zoekmachines kunnen gebruiken om in één keer overzicht te krijgen van alle pagina's, bestanden en paden binnen de website. Staat een URL in de sitemap, dan kent de zoekmachine de URL en is de kans dat deze gecrawled wordt stukken groter. De meeste CMS'en kunnen via een plug-in voorzien worden van een sitemap.


Creëer: Creëer een XML-sitemap

Bron: Google Search Central

Links (intern én extern)

Zowel interne als externe links (ook wel 'hyperlinks') dragen bij aan de crawlbaarheid van jouw website. Hierin is het belangrijk dat de hyperlinks in de code voldoen aan alle HTML-standaarden. De zoekmachine kan de links volgen om nieuwe pagina's te ontdekken. Heeft de link een goede 'anchortekst', dan geeft dit de crawler ook wat context over de pagina waarnaar gelinkt wordt.


Probeer: Creëer hyperlinks

Bron: Google Search Central

Meta-robots

De meta-name="robots" tag heeft (voor elke individuele pagina) twee belangrijke functies. Met 'index' en 'noindex' geef je aan of een pagina wel of niet in de index mag worden opgenomen. Daarnaast geef je met 'follow' en 'nofollow' aan of de hyperlinks op deze pagina door de zoekmachine gevolgd mogen worden. Dit is dus van invloed op het gedrag van de crawlers. Deze tags werken onafhankelijk van elkaar.


Test: Test de pagina (test o.a. de HTML-response)

Bron: Google Search Central

Welke crawlers zijn er?

Je hebt verschillende soorten crawlers die op jouw website kunnen komen, maar ze zijn vrijwel allemaal onder te verdelen in een van deze categorieën:

Type crawler Bedrijven Naam van bot(s) Doel
Zoekmachines

Google

Bing

GoogleBot, Adsbot

Bingbot, AdIdxBot

Crawlen en Indexeren
SEO-tools

Ahrefs

Moz

Semrush

AhrefsBot

Rogerbot

SemrushBot

Rapporteren van websitesignalen (browser)
Crawl-tools Screaming Frog Screaming Frog SEO Spider Rapporteren van websitesignalen (applicatie)

Het doel van de verschillende crawlers lopen uiteen. Waar de zoekmachines bezig zijn met het vinden van nieuwe, relevante pagina's voor de index, zijn de tools vooral bezig de volledige site in kaart te brengen, om verbeterpunten te vinden voor het crawlen, indexeren en optimaliseren van de website.

Hoe werkt crawlbudget?

Crawlbudget is in feite een indicatie van hoe vaak zoekmachines jouw website willen crawlen en hoelang ze dit willen doen. Er zit dus een maximum op, dat is logisch, want het internet is vele malen groter dan de index van de zoekmachines aankunnen. Hoeveel crawlbudget er voor jouw website is, hangt onder andere af van deze factoren:

  • Het totale aantal pagina's de zoekmachine kan crawlen.
  • De populariteit van jouw website is (externe factoren dus).
  • In welke mate jouw website wordt vernieuwd of uitgebreid.

Hieruit kan je bijvoorbeeld al opmaken dat het belangrijk is dat de website 'vers' blijft, dat de zoekmachine links naar jouw website tegenkomt op andere sites en dat er genoeg informatie is om te crawlen.

Invloed uitoefenen op crawlbudget

Er zijn enkele manieren waarop je het crawlbudget of het gebruik ervan positief (of negatief) kan beïnvloeden. Allereerst is een goede technische gezondheid nodig. Negatieve response codes of slome response tijden zorgen ervoor dat het crawlbudget onjuist of inefficient wordt ingezet. Dit kan ervoor zorgen dat de zoekmachine lagere hoeveelheden crawlverzoeken uitvoert (zie grafiek).

Het toevoegen van content en het bijwerken van pagina's zorgt voor een 'versheid' die de zoekmachine nodig heeft om geïnteresseerd te blijven. Dit zal een goede invloed hebben op het crawlbudget, net zoals de negatieve invloed wanneer de website verouderd en niet meer bijgewerkt wordt.

Checklist voor optimalisatie

Met de checklist hieronder kan je het crawlen van jouw website op een zo goed mogelijke manier optimaliseren. Lees de stappen door, mocht je meer informatie nodig hebben of kom je er niet uit, neem dan contact op!



De robots.txt zet je in om de zoekmachine te weerhouden om bepaalde pagina's te bezoeken. Voor kleine websites kan dit overbodig zijn, maar voor grotere websites (+1.000 pagina's) kan je de zoekmachine weerhouden om irrelevante pagina's te bezoeken. Oftewel, meer budget voor relevantere pagina's.



In de sitemap.xml horen al je pagina's te staan die je geïndexeerd wilt hebben. De sitemap dient als menukaart voor zoekmachines, waarmee ze in één opslag kunnen zien welke pagina's er te vinden en te crawlen zijn binnen de website. Verwijderde en omgeleide pagina's kunnen er (gebruikelijk) beter niet instaan.



Wanneer de crawlers negatieve statuscodes tegenkomt (lijst negatieve statuscodes voor crawlen) dan zal dit het tempo waarin het crawlt aanpassen. Je kan dit controleren door zelf regelmatig een crawl uit te voeren.



In Google Search Console heb je overzicht van 'Gevonden', Gecrawlde' en 'Geïndexeerde' pagina's. Valt het je op dat een nieuwe of belangrijke pagina niet verschijnt in de zoekresultaten? Dan is de kans groot dat deze nog niet gevonden of geïndexeerd is. In dat geval kan je handmatig proberen indexering aan te vragen!



De reactietijd van de server is van invloed op het totale aantal pagina's dat de crawler kan crawlen in een sessie. Heb je een langere (lees: tragere) Time-to-First-Bite, dan kan de crawler in een sessie minder pagina's bezoeken en crawlen. Wat dus een negatieve invloed heeft op hoe snel wijzigingen of nieuwe pagina's geïndexeerd worden. Test dit met PageSpeed Insights of check in Search Console de Crawlstatistieken.



Checklist voor optimalisatie

Met de checklist hieronder kan je het crawlen van jouw website op een zo goed mogelijke manier optimaliseren. Lees de stappen door, mocht je meer informatie nodig hebben of kom je er niet uit, neem dan contact op!



De robots.txt zet je in om de zoekmachine te weerhouden om bepaalde pagina's te bezoeken. Voor kleine websites kan dit overbodig zijn, maar voor grotere websites (+1.000 pagina's) kan je de zoekmachine weerhouden om irrelevante pagina's te bezoeken. Oftewel, meer budget voor relevantere pagina's.



In de sitemap.xml horen al je pagina's te staan die je geïndexeerd wilt hebben. De sitemap dient als menukaart voor zoekmachines, waarmee ze in één opslag kunnen zien welke pagina's er te vinden en te crawlen zijn binnen de website. Verwijderde en omgeleide pagina's kunnen er (gebruikelijk) beter niet instaan.



Wanneer de crawlers negatieve statuscodes tegenkomt (lijst negatieve statuscodes voor crawlen) dan zal dit het tempo waarin het crawlt aanpassen. Je kan dit controleren door zelf regelmatig een crawl uit te voeren.



In Google Search Console heb je overzicht van 'Gevonden', Gecrawlde' en 'Geïndexeerde' pagina's. Valt het je op dat een nieuwe of belangrijke pagina niet verschijnt in de zoekresultaten? Dan is de kans groot dat deze nog niet gevonden of geïndexeerd is. In dat geval kan je handmatig proberen indexering aan te vragen!



De reactietijd van de server is van invloed op het totale aantal pagina's dat de crawler kan crawlen in een sessie. Heb je een langere (lees: tragere) Time-to-First-Bite, dan kan de crawler in een sessie minder pagina's bezoeken en crawlen. Wat dus een negatieve invloed heeft op hoe snel wijzigingen of nieuwe pagina's geïndexeerd worden. Test dit met PageSpeed Insights of check in Search Console de Crawlstatistieken.



Cruciale rol van crawlen tijdens een migratie

Tijdens de migratie van jouw website wil je dat de zoekmachine tijdig en accuraat de juiste pagina's crawlt en indexeert, en de oude URL's (waar nodig) uit de index haalt. Om die reden hebben zoekmachines zoals Google een mechanisme dat het crawlbudget en de frequentie omhoog gooit wanneer er site-wide veranderingen plaatsvinden, zoals een migratie. Wel zo fijn!

Crawlen en indexeren

Zoals gezegd is het crawlen van een of pagina de eerste stap die gezet moet worden, voordat deze vindbaar kan worden in de zoekmachine. Nadat deze gecrawld is, beoordeeld de zoekmachine of de pagina geïndexeerd gaat worden. Doorgaans, als de content uniek en relevant genoeg is, zal de zoekmachine deze opnemen in de index, waarna deze als resultaat getoond kan worden tijdens een zoekopdracht. Simpelweg volgt elke zoekmachine deze stappen:

  1. Crawlen
  2. Indexeren
  3. Uitserveren 

Het is niet altijd zó simpel, en elke stap kent vele processen, wiskundige formules en soms wat gebreken, maar in feite is dit hoe zoekmachines werken.

Veelgestelde vragen

Wat is een crawler?

Een crawler, ook wel een spider, bot of robot genoemd, is in feite een systeem dat op het internet wordt losgelaten om deze te gaan ontdekken en de content die de crawler vindt te bekijken.

Wat is het crawlbudget?

De zoekmachine hanteert per website een bepaalde hoeveelheid pagina's die per dag gecrawled kan worden. Dit wordt het crawlbudget genoemd, en is dus per website anders. Het is gebaseerd op het geschatte aantal pagina's waar de zoekmachine iets mee kan, hoe populair jouw website is en hoe vaak de pagina's en content worden bijgewerkt.

Veelgestelde vragen

Wat is een crawler?

Een crawler, ook wel een spider, bot of robot genoemd, is in feite een systeem dat op het internet wordt losgelaten om deze te gaan ontdekken en de content die de crawler vindt te bekijken.

Wat is het crawlbudget?

De zoekmachine hanteert per website een bepaalde hoeveelheid pagina's die per dag gecrawled kan worden. Dit wordt het crawlbudget genoemd, en is dus per website anders. Het is gebaseerd op het geschatte aantal pagina's waar de zoekmachine iets mee kan, hoe populair jouw website is en hoe vaak de pagina's en content worden bijgewerkt.