Wat is robots.txt?
Het robots.txt-bestand is een eenvoudig tekstbestand dat bots en crawlers vertelt welke delen van je website ze mogen bezoeken. Zie het als een bord bij de ingang van je website dat "bezoekers welkom" of "privégebied" zegt. Elke bot die de regels volgt (genaamd het Robots Exclusion Protocol) controleert dit bestand eerst voordat het je site crawlt.
Voor AI-zoekmachines is robots.txt vooral belangrijk. Het regelt of AI-bots zoals GPTBot (ChatGPT), ClaudeBot (Claude) en PerplexityBot toegang hebben tot je content voor training en zoekresultaten. Dit correct opzetten helpt je je AI-bot toegang effectief te beheren.
Je robots.txt-bestand moet zich bevinden op jouwsite.com/robots.txt. Bots zoeken er nergens anders naar. Als je dit bestand niet hebt, gaan bots ervan uit dat ze alles mogen crawlen.
Waarom robots.txt ertoe doet voor AI
AI-bots zijn anders dan traditionele zoekmachine-crawlers. Ze bezoeken je site om twee hoofdredenen:
Verzamelen van trainingsdata
Sommige AI-bedrijven gebruiken webcontent om hun taalmodellen te trainen. Ze crawlen miljoenen pagina's om kennisbases op te bouwen.
Je kunt regelen of je content wordt gebruikt voor training door specifieke bots te blokkeren in robots.txt.
Zoekresultaat-generatie
AI-zoekmachines crawlen je content om het op te nemen in hun zoekresultaten en antwoordgeneratie.
Het toestaan van deze bots helpt je content te verschijnen in AI-gegenereerde antwoorden, wat je GEO-Score verbetert.
De sleutel is de juiste balans vinden. Je wilt dat AI-zoekmachines je content benaderen voor zichtbaarheid, maar je wilt mogelijk bepaalde gebieden of specifieke trainingsbots blokkeren. Je robots.txt-bestand geeft je deze controle.
Belangrijkste AI-bot user-agents
Elke AI-bot identificeert zich met een unieke user-agent string. Hier zijn de belangrijkste:
GPTBot
OpenAIUser-agent: GPTBot
Gebruikt door: ChatGPT, OpenAI-zoekfuncties
GPTBot crawlt content voor zowel ChatGPT-antwoorden als training. Blokkeren voorkomt dat je content verschijnt in de zoekresultaten van ChatGPT.
ClaudeBot
AnthropicUser-agent: ClaudeBot
Gebruikt door: Claude AI, Anthropic's AI-assistent
ClaudeBot benadert webcontent om actuele informatie te bieden in Claude's antwoorden. Het respecteert robots.txt-regels strikt.
PerplexityBot
PerplexityUser-agent: PerplexityBot
Gebruikt door: Perplexity AI-zoekmachine
PerplexityBot drijft een van de populairste AI-zoekmachines aan. Toestaan verbetert zichtbaarheid in Perplexity-zoekresultaten.
Google-Extended
GoogleUser-agent: Google-Extended
Gebruikt door: Google Gemini AI-training
Dit is gescheiden van Googlebot. Google-Extended verzamelt data voor training van Gemini. Blokkeren beïnvloedt normale Google Search-indexering niet.
FacebookBot
MetaUser-agent: FacebookBot
Gebruikt door: Meta AI, Facebook link-previews
FacebookBot crawlt voor link-previews en Meta's AI-functies. Het is belangrijk voor sociale media-zichtbaarheid.
Voor een complete lijst van AI-bot user-agents met technische details, zie onze AI-bot user-agents referentie.
Basis robots.txt-syntax
Het robots.txt-bestand gebruikt een eenvoudige syntax met slechts een paar commando's:
User-agent
Specificeert op welke bot de volgende regels van toepassing zijn. Gebruik * voor alle bots.
User-agent: GPTBot User-agent: *
Disallow
Vertelt bots specifieke paden NIET te benaderen. Gebruik / om alles te blokkeren.
Disallow: /admin/ Disallow: /private/ Disallow: /
Allow
Vertelt bots dat ze specifieke paden WEL kunnen benaderen. Gebruik dit om een bredere Disallow-regel te overschrijven.
Disallow: /admin/ Allow: /admin/public/
Crawl-delay
Stelt een vertraging in seconden in tussen bot-aanvragen. Niet ondersteund door alle bots.
Crawl-delay: 10
Sitemap
Wijst bots naar je XML-sitemap voor betere crawlefficiëntie.
Sitemap: https://yoursite.com/sitemap.xml
Veelvoorkomende robots.txt-configuraties
Hier zijn kant-en-klare configuraties voor veelvoorkomende scenario's:
Sta alle AI-bots toe (aanbevolen voor de meeste sites)
Deze configuratie verwelkomt alle AI-zoekmachines terwijl admin-gebieden worden beschermd:
# Allow all AI bots to crawl User-agent: * Allow: / # Block private areas for all bots Disallow: /admin/ Disallow: /api/ Disallow: /login/ Disallow: /dashboard/ # Sitemap location Sitemap: https://yoursite.com/sitemap.xml
Blokkeer AI-training, sta AI-zoekmachines toe
Blokkeer bots gebruikt voor het trainen van AI-modellen terwijl zoekbots worden toegestaan:
# Block training bots User-agent: GPTBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: CCBot Disallow: / # Allow search bots User-agent: PerplexityBot Allow: / User-agent: ClaudeBot Allow: / # Default rules for other bots User-agent: * Allow: / Disallow: /admin/ Sitemap: https://yoursite.com/sitemap.xml
Selectieve content-toegang
Sta AI-bots toe blogcontent te benaderen maar geen productpagina's:
# AI bots can access blog User-agent: GPTBot Allow: /blog/ Disallow: / User-agent: ClaudeBot Allow: /blog/ Disallow: / # Default rules User-agent: * Allow: / Sitemap: https://yoursite.com/sitemap.xml
Blokkeer alle AI-bots
Als je volledig wilt afzien van AI-zoekmachines (niet aanbevolen voor zichtbaarheid):
# Block all known AI bots User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: PerplexityBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: FacebookBot Disallow: / User-agent: CCBot Disallow: / # Allow traditional search engines User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / Sitemap: https://yoursite.com/sitemap.xml
Best practices
Doe dit
✓Plaats robots.txt in je rootdirectory
✓Gebruik één regel per regel
✓Voeg je sitemap-locatie toe
✓Test je robots.txt na wijzigingen
✓Sta AI-bots toe voor betere GEO-zichtbaarheid
✓Houd het bestand onder 500KB
Vermijd dit
✗robots.txt gebruiken voor beveiliging
✗Alle bots blokkeren zonder reden
✗Reguliere expressies gebruiken (niet ondersteund)
✗Vergeten bij te werken na site-wijzigingen
✗CSS/JS blokkeren die nodig is voor pagina-rendering
✗Meerdere robots.txt-bestanden maken
Je robots.txt testen
Test je robots.txt-bestand altijd voor implementatie. Gebruik deze methoden:
Handmatig testen
Bezoek jouwsite.com/robots.txt in je browser om te verifiëren:
- Het bestand is toegankelijk en laadt correct
- Er zijn geen syntaxfouten of typo's
- Alle user-agent namen zijn correct gespeld
- Paden komen overeen met je werkelijke site-structuur
Google Search Console
Gebruik Google's robots.txt-tester tool:
- Ga naar Google Search Console
- Navigeer naar Crawl → robots.txt-tester
- Test specifieke URL's tegen je regels
- Controleer op fouten en waarschuwingen
Online validators
Gebruik third-party robots.txt-validators:
- Robots.txt Checker: Check syntax en dekking
- Bloffee GEO Analyzer: Valideert robots.txt als onderdeel van volledige site-analyse
- SEO-tools: Veel SEO-platformen bevatten robots.txt-testen
Serverlog-monitoring
Controleer je serverlogs om botgedrag te verifiëren:
- Zoek naar AI-bot user-agent strings in toegangslogs
- Verifieer dat bots je regels respecteren
- Identificeer ongeautoriseerd crawlen
- Monitor crawl-frequentie en -patronen
Geavanceerde configuraties
Rate limiting met Crawl-delay
Regel hoe snel bots je site crawlen om serverbelasting te verminderen:
User-agent: GPTBot Crawl-delay: 10 Allow: / User-agent: ClaudeBot Crawl-delay: 5 Allow: /
Let op: niet alle bots ondersteunen crawl-delay. Het is betrouwbaarder om server-side rate limiting te gebruiken.
Wildcardpatronen
Gebruik wildcards om meerdere paden te matchen (ondersteund door de meeste moderne bots):
User-agent: * # Block all PDF files Disallow: /*.pdf$ # Block all URLs with query parameters Disallow: /*? # Block all admin pages Disallow: /*/admin/
Meerdere sitemaps
Lijst meerdere sitemaps op voor verschillende contenttypes:
Sitemap: https://yoursite.com/sitemap-pages.xml Sitemap: https://yoursite.com/sitemap-blog.xml Sitemap: https://yoursite.com/sitemap-products.xml Sitemap: https://yoursite.com/sitemap-images.xml
Snelle tips voor robots.txt
- •Begin met het toestaan van alle AI-zoekbots voor maximale zichtbaarheid
- •Blokkeer alleen specifieke bots als je een sterke reden hebt
- •Voeg altijd je sitemap-locatie toe
- •Test wijzigingen voordat je naar productie pusht
- •Monitor bot-toegang in je serverlogs
- •Werk robots.txt bij wanneer je site-structuur verandert
- •Onthoud: robots.txt is geen beveiligingsmaatregel
Impact op je GEO-Score
Je robots.txt-configuratie beïnvloedt direct je AI-bot toegang-score, een kerncomponent van je algehele GEO-Score.
Bloffee controleert je robots.txt op:
- Of AI-bots je content kunnen benaderen
- Goede syntax en opmaak
- Onbedoeld blokkeren van belangrijke pagina's
- Sitemap-declaratie
- Te beperkende regels die zichtbaarheid schaden
Een goed geconfigureerde robots.txt die AI-bots verwelkomt kan je GEO-Score met 10-15 punten verbeteren. Belangrijke bots blokkeren kan je score met 20-30 punten of meer verlagen.
Klaar om je robots.txt te genereren?
Gebruik onze gratis robots.txt-generator om in seconden een AI-geoptimaliseerde configuratie te maken. Configureer 40+ bots met één klik.
Gerelateerde onderwerpen
- AI-bot user-agents referentie
Complete lijst van AI-bot user-agents met technische details
- AI-bot toegang
Leer hoe bot-toegang je GEO-Score beïnvloedt
- Complete gids voor meta tags
Configureer meta robots-tags voor extra botbeheer
- Gratis robots.txt-generator
Genereer een AI-geoptimaliseerd robots.txt-bestand in seconden