Crawlen - Hoe Crawlers Werken

Introductie tot crawlen

Wanneer we het hebben over crawlen, dan hebben we het over de manier waarop zoekmachines zoals Google en Microsoft Bing jouw pagina's vinden, deze bekijken en de informatie in hun database opslaan. Die eerste twee stappen behoren tot het crawlen. Het opslaan van de informatie in de database wordt 'indexatie' genoemd (een ander belangrijk begrip).

Crawlen en het optimaliseren ervan zijn zeer-technische onderdelen van SEO, dus zullen we proberen het op een toegankelijke manier uit te leggen.

In dit kennisartikel:

Het belang van crawlen

Crawlen is een fundamenteel onderdeel van het proces van de zoekmachines. Door te crawlen kunnen ze namelijk nieuwe pagina's ontdekken, of wijzigingen aan bestaande pagina's meenemen in de index. Komt de crawler veel links (intern én extern) naar een pagina tegen, dan kan de crawler deze dus vaker verversen in de index, waardoor de kans groter wordt dat deze beter gaat scoren in de zoekresultaten of beter begrepen wordt door de zoekmachine. Het optimaal laten crawlen van jouw website is dus enorm belangrijk voor jouw SEO-succes!

Hoe werkt een crawler?

Een crawler, ook wel een spider, bot of robot genoemd, is in feite een systeem dat op het internet wordt losgelaten om deze te gaan ontdekken en de content die het tegenkomt te bekijken.

Wanneer het op een pagina een hyperlink naar een andere pagina tegenkomt (zie afbeelding), dan zal hij deze volgen en de volgende pagina bekijken. Zo crawlt de bot over het internet, als een spin in het web.

Het ontdekken en het bekijken van deze pagina's is de eerste stap richting indexatie, ofwel: 'het vastleggen van deze pagina's in de database van de zoekmachine'.

Welke tools heb je voor crawl-optimalisatie?

Er zijn verschillende tools die jij kan inzetten om het voor de zoekmachine zo makkelijk mogelijk te maken om jouw website op een zo efficiënt mogelijke manier te crawlen.

Robots.txt

Met de robots.txt kan je aan robots van zoekmachines, SEO-tools en andere crawlers kenbaar maken welke gedeelten van de website niet gecrawled mogen worden. In hoofdlijnen is de robots.txt de eerste lijn van defensie. Je blokkeert de toegang tot irrelevante (of ongewenste) pagina's, mediabestanden en bronbestanden.

Test: Test jouw robots.txt-bestand

Bron: Google Search Central

Sitemap.xml

Een XML-sitemap is een bestand dat zoekmachines kunnen gebruiken om in één keer overzicht te krijgen van alle pagina's, bestanden en paden binnen de website. Staat een URL in de sitemap, dan kent de zoekmachine de URL en is de kans dat deze gecrawled wordt stukken groter. De meeste CMS'en kunnen via een plug-in voorzien worden van een sitemap.

Creëer: Creëer een XML-sitemap

Bron: Google Search Central

Links (intern én extern)

Zowel interne als externe links (ook wel 'hyperlinks') dragen bij aan de crawlbaarheid van jouw website. Hierin is het belangrijk dat de hyperlinks in de code voldoen aan alle HTML-standaarden. De zoekmachine kan de links volgen om nieuwe pagina's te ontdekken. Heeft de link een goede 'anchortekst', dan geeft dit de crawler ook wat context over de pagina waarnaar gelinkt wordt.

Probeer: Creëer hyperlinks

Bron: Google Search Central

Meta-robots

De meta-name="robots" tag heeft (voor elke individuele pagina) twee belangrijke functies. Met 'index' en 'noindex' geef je aan of een pagina wel of niet in de index mag worden opgenomen. Daarnaast geef je met 'follow' en 'nofollow' aan of de hyperlinks op deze pagina door de zoekmachine gevolgd mogen worden. Dit is dus van invloed op het gedrag van de crawlers. Deze tags werken onafhankelijk van elkaar.

Test: Test de pagina (test o.a. de HTML-response)

Bron: Google Search Central

Welke crawlers zijn er?

Je hebt verschillende soorten crawlers die op jouw website kunnen komen, maar ze zijn vrijwel allemaal onder te verdelen in een van deze categorieën:

Type crawler	Bedrijven	Naam van bot(s)	Doel
Zoekmachines	Google Bing	GoogleBot, Adsbot Bingbot, AdIdxBot	Crawlen en Indexeren
SEO-tools	Ahrefs Moz Semrush	AhrefsBot Rogerbot SemrushBot	Rapporteren van websitesignalen (browser)
Crawl-tools	Screaming Frog	Screaming Frog SEO Spider	Rapporteren van websitesignalen (applicatie)

Type crawler

Bedrijven

Naam van bot(s)

Doel

Zoekmachines

Google

Bing

GoogleBot, Adsbot

Bingbot, AdIdxBot

Crawlen en Indexeren

SEO-tools

Ahrefs

Moz

Semrush

AhrefsBot

Rogerbot

SemrushBot

Rapporteren van websitesignalen (browser)

Crawl-tools

Screaming Frog

Screaming Frog SEO Spider

Rapporteren van websitesignalen (applicatie)

Het doel van de verschillende crawlers lopen uiteen. Waar de zoekmachines bezig zijn met het vinden van nieuwe, relevante pagina's voor de index, zijn de tools vooral bezig de volledige site in kaart te brengen, om verbeterpunten te vinden voor het crawlen, indexeren en optimaliseren van de website.

Hoe werkt crawlbudget?

Crawlbudget is in feite een indicatie van hoe vaak zoekmachines jouw website willen crawlen en hoelang ze dit willen doen. Er zit dus een maximum op, dat is logisch, want het internet is vele malen groter dan de index van de zoekmachines aankunnen. Hoeveel crawlbudget er voor jouw website is, hangt onder andere af van deze factoren:

Het totale aantal pagina's de zoekmachine kan crawlen.
De populariteit van jouw website is (externe factoren dus).
In welke mate jouw website wordt vernieuwd of uitgebreid.

Hieruit kan je bijvoorbeeld al opmaken dat het belangrijk is dat de website 'vers' blijft, dat de zoekmachine links naar jouw website tegenkomt op andere sites en dat er genoeg informatie is om te crawlen.

Invloed uitoefenen op crawlbudget

Er zijn enkele manieren waarop je het crawlbudget of het gebruik ervan positief (of negatief) kan beïnvloeden. Allereerst is een goede technische gezondheid nodig. Negatieve response codes of slome response tijden zorgen ervoor dat het crawlbudget onjuist of inefficient wordt ingezet. Dit kan ervoor zorgen dat de zoekmachine lagere hoeveelheden crawlverzoeken uitvoert (zie grafiek).

Het toevoegen van content en het bijwerken van pagina's zorgt voor een 'versheid' die de zoekmachine nodig heeft om geïnteresseerd te blijven. Dit zal een goede invloed hebben op het crawlbudget, net zoals de negatieve invloed wanneer de website verouderd en niet meer bijgewerkt wordt.

Crawlen en indexeren

Zoals gezegd is het crawlen van een of pagina de eerste stap die gezet moet worden, voordat deze vindbaar kan worden in de zoekmachine. Nadat deze gecrawld is, beoordeeld de zoekmachine of de pagina geïndexeerd gaat worden. Doorgaans, als de content uniek en relevant genoeg is, zal de zoekmachine deze opnemen in de index, waarna deze als resultaat getoond kan worden tijdens een zoekopdracht. Simpelweg volgt elke zoekmachine deze stappen:

Crawlen
Indexeren
Uitserveren

Het is niet altijd zó simpel, en elke stap kent vele processen, wiskundige formules en soms wat gebreken, maar in feite is dit hoe zoekmachines werken.

Veelgestelde vragen

Wat is een crawler?

Een crawler, ook wel een spider, bot of robot genoemd, is in feite een systeem dat op het internet wordt losgelaten om deze te gaan ontdekken en de content die de crawler vindt te bekijken.

Wat is het crawlbudget?

De zoekmachine hanteert per website een bepaalde hoeveelheid pagina's die per dag gecrawled kan worden. Dit wordt het crawlbudget genoemd, en is dus per website anders. Het is gebaseerd op het geschatte aantal pagina's waar de zoekmachine iets mee kan, hoe populair jouw website is en hoe vaak de pagina's en content worden bijgewerkt.

Veelgestelde vragen

Wat is een crawler?

Een crawler, ook wel een spider, bot of robot genoemd, is in feite een systeem dat op het internet wordt losgelaten om deze te gaan ontdekken en de content die de crawler vindt te bekijken.

Wat is het crawlbudget?

De zoekmachine hanteert per website een bepaalde hoeveelheid pagina's die per dag gecrawled kan worden. Dit wordt het crawlbudget genoemd, en is dus per website anders. Het is gebaseerd op het geschatte aantal pagina's waar de zoekmachine iets mee kan, hoe populair jouw website is en hoe vaak de pagina's en content worden bijgewerkt.

Crawlers, spiders en robots

Introductie tot crawlen

In dit kennisartikel:

Het belang van crawlen

Hoe werkt een crawler?

Welke tools heb je voor crawl-optimalisatie?

Robots.txt

Sitemap.xml

Links (intern én extern)

Meta-robots

Welke crawlers zijn er?

Hoe werkt crawlbudget?

Invloed uitoefenen op crawlbudget

Checklist voor optimalisatie

Checklist voor optimalisatie

Cruciale rol van crawlen tijdens een migratie

Crawlen en indexeren

Veelgestelde vragen

Wat is een crawler?

Wat is het crawlbudget?

Veelgestelde vragen

Wat is een crawler?

Wat is het crawlbudget?