Als je wilt dat jouw website zichtbaar is in de zoekmachine Google, dan is het van groot belang dat de zoekmachine jouw website indexeert. Maar hoe zorg je ervoor dat de zoekmachine jouw website kan indexeren? In deze blog geven we je tips over de indexatie van jouw website en hoe je Google kan helpen jouw website te begrijpen en op te laten nemen in haar index.

Wat is indexeren en indexatie?

De zoekmachine, Google in dit geval, houdt een enorme database bij met alle websites die ze tegenkomt en vanuit die database bouwen ze de zoekresultaten op. Dat ‘tegenkomen’ doet Google door jouw website te crawlen en te indexeren. Het indexeren is dus het opslaan in de database. Als een bepaalde pagina daar al in staat, dan slaat Google de laatst geïndexeerde versie op. Wanneer je een aanpassing hebt gemaakt op een pagina, dan wordt dit pas zichtbaar in de zoekresultaten wanneer die pagina opnieuw geïndexeerd wordt.

Hoe bepaalt de zoekmachine welke pagina’s in de index komen?

De zoekmachine luistert naar verschillende signalen wanneer ze jouw website tegenkomen en proberen te indexeren. Twee belangrijke signalen worden afgegeven door de robots.txt en door de meta-tags op de pagina. Met de robots.txt kan je de zoekmachine blokkeren. Dit klinkt slecht, maar dat is het niet. Je kan er namelijk specifieke secties binnen de website mee afsluiten van indexatie. Daarnaast heb je nog de meta-tags. Die staan in de code van een website en geven aan of de zoekmachine een pagina mag indexeren. De welbekende ‘NOINDEX’ meta-tag is een direct signaal waarnaar geluisterd wordt door élke zoekmachine.

Tegenstrijdige signalen vermijden

Als je het de zoekmachine makkelijk wilt maken, dan is het van belang dat je eenzijdige signalen naar de zoekmachine stuurt en ‘fouten’ probeert te vermijden. Als je jouw website hebt aangemeld bij Google Search Console, wat wij in ieder geval aanraden, kan je kijken of het crawlen goed gaat. Soms krijg je daarin meldingen dat het crawlen niet optimaal gaat of helemaal niet werkt. Het kan namelijk zijn dat er een pagina ongewenst geïndexeerd is, maar dat de pagina niet bereikt kan worden via de robots.txt. Stel dat je de ongewenste pagina dan een “noindex”-tag geeft, met als doel deze uit de index te verwijderen, dan kan Google deze tag nooit zien, want de pagina wordt uitgesloten via de robots.txt. Dat is een ongewenste situatie. In Search Console kan je dit soort gevallen vinden onder de noemer “Dekking > Geïndexeerd, maar geblokkeerd door robots.txt”.

3 manieren om het indexeren te beïnvloeden

1. Sitemap

Als je de zoekmachine wilt laten weten welke pagina’s er zijn, en de zoekmachine dus kan indexeren, kan je gebruikmaken van een sitemap. Dit is een bestand op je website waarin alle locaties van pagina’s beschreven staan. Het is dus in feite een soort routekaart voor de zoekmachine door je website heen. In de sitemap wil je enkel pagina’s hebben staan die de zoekmachine mag indexeren. Pagina’s die uitgesloten worden door de meta-robots of door de robots.txt staan er dus niet in. Lees op de site van Google meer over sitemaps. Hieronder een voorbeeld van een sitemap:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.aspendigital.nl/</loc>
<lastmod>2021-08-05</lastmod>
</url>
</urlset>

Kortom, de sitemap geeft het aan waar een pagina te vinden is en wanneer deze voor het laatst is bijgewerkt. Dat laatste is belangrijk wanneer er wijzigingen gemaakt zijn die de vindbaarheid van een pagina zouden kunnen verbeteren. Je wilt dan dat de zoekmachine kan zien dat er een wijziging is gemaakt.

2. Robots.txt

Het bestand ‘robots.txt’ is een vrij simpel bestand waarin je aangeeft welke zoekmachine welk gedeelte van de website wel óf niet kan bezoeken. Dit bestand kan een gedeelte van de website afgeschermd houden, zodat de zoekmachine het niet kan indexeren. Hieronder een voorbeeld van wat je kan tegenkomen in een robots.txt:

User-agent: *
Disallow: /wp-admin/

Sitemap: https://www.aspendigital.nl/sitemap_index.xml

Het is ook gebruikelijk dat er een link geplaatst wordt naar de sitemap. Aangezien een robots.txt bestand altijd te vinden op de website met een dergelijke link: https://www.aspendigital.nl/robots.txt. Deze moet altijd op deze manier op de website geplaatst worden, aangezien het een universeel bruikbaar bestand is. Elke goedwerkende website heeft de robots.txt op deze wijze verwerkt. In een toekomstige blog gaan we dieper in op de werking van de robots.txt en waar je op moet letten.

3. Meta-robots

De sitemap en de robots.txt zijn bestanden op de website en hebben dan ook hun eigen locatie. Meta-robots staan op individuele pagina’s. Stel je wilt één pagina uitsluiten, dan moet je ervoor zorgen dat de pagina in het <head> gedeelte van de HTML-code de meta-robots ‘NOINDEX’ heeft. Er zijn verschillende combinaties die je hiervoor kan gebruiken, maar de meest voorkomende zijn:

<meta name="robots" content="noindex, nofollow">

<meta name="robots" content="index, follow">

De eerste gebruik je om een pagina te blokkeren van indexatie of uit de indexatie te verwijderen (mocht deze ongewenst geïndexeerd zijn) en de tweede gebruik je op pagina’s die wél in de index mogen staan.

Aan de slag met het indexeren van jouw website

Wil je zelf aan de slag met het verbeteren van de techniek achter jouw website? Wij hebben specialisten in huis die alles weten over de indexeerbaarheid van jouw website en de invloed van techniek op SEO. Dus mocht je vragen hebben, laat het ons zeker weten, dan gaan we graag met je in gesprek!