Terug naar Learning Hub

robots.txt voor AI-bots

Regel welke AI-zoekmachines toegang hebben tot je content

Wat is robots.txt?

Het robots.txt bestand is een eenvoudig tekstbestand dat bots en crawlers vertelt welke delen van je website ze kunnen bezoeken. Zie het als een bord bij de ingang van je website dat zegt "bezoekers welkom" of "privégebied." Elke bot die de regels volgt (genoemd het Robots Exclusion Protocol) controleert eerst dit bestand voordat het je site crawlt.

Voor AI-zoekmachines is robots.txt vooral belangrijk. Het regelt of AI-bots zoals GPTBot (ChatGPT), ClaudeBot (Claude) en PerplexityBot toegang hebben tot je content voor training en zoekresultaten. Dit correct instellen helpt je AI bot-toegang effectief te beheren.

Je robots.txt bestand moet zich bevinden op jouwsite.com/robots.txt. Bots zullen er nergens anders naar zoeken. Als je dit bestand niet hebt, gaan bots ervan uit dat ze alles kunnen crawlen.

Waarom robots.txt belangrijk is voor AI

AI-bots verschillen van traditionele zoekmachine crawlers. Ze bezoeken je site om twee hoofdredenen:

Trainingsdataverzameling

Sommige AI-bedrijven gebruiken webcontent om hun taalmodellen te trainen. Ze crawlen miljoenen pagina's om kennisbases op te bouwen.

Je kunt regelen of je content wordt gebruikt voor training door specifieke bots te blokkeren in robots.txt.

Zoekresultaat generatie

AI-zoekmachines crawlen je content om het op te nemen in hun zoekresultaten en antwoordgeneratie.

Deze bots toestaan helpt je content te verschijnen in AI-gegenereerde antwoorden, wat je GEO-Score verbetert.

De sleutel is het vinden van de juiste balans. Je wilt dat AI-zoekmachines toegang hebben tot je content voor zichtbaarheid, maar je wilt misschien bepaalde gebieden of specifieke trainingsbots blokkeren. Je robots.txt bestand geeft je deze controle.

Belangrijkste AI Bot User-Agents

Elke AI-bot identificeert zichzelf met een unieke user-agent string. Hier zijn de belangrijkste:

GPTBot

OpenAI

User-agent: GPTBot

Gebruikt door: ChatGPT, OpenAI zoekfuncties

GPTBot crawlt content voor zowel ChatGPT-antwoorden als training. Het blokkeren voorkomt dat je content verschijnt in ChatGPT's webzoekresultaten.

ClaudeBot

Anthropic

User-agent: ClaudeBot

Gebruikt door: Claude AI, Anthropic's AI-assistent

ClaudeBot toegang tot webcontent om actuele informatie in Claude's antwoorden te bieden. Het respecteert robots.txt regels strikt.

PerplexityBot

Perplexity

User-agent: PerplexityBot

Gebruikt door: Perplexity AI-zoekmachine

PerplexityBot drijft een van de populairste AI-zoekmachines aan. Het toestaan verbetert zichtbaarheid in Perplexity zoekresultaten.

Google-Extended

Google

User-agent: Google-Extended

Gebruikt door: Google Gemini AI-training

Dit is gescheiden van Googlebot. Google-Extended verzamelt data voor Gemini training. Het blokkeren beïnvloedt normale Google Search indexering niet.

FacebookBot

Meta

User-agent: FacebookBot

Gebruikt door: Meta AI, Facebook link voorvertoningen

FacebookBot crawlt voor link voorvertoningen en Meta's AI-functies. Het is belangrijk voor social media zichtbaarheid.

Voor een volledige lijst van AI bot user-agents met technische details, zie onze AI Bot User-Agents Referentie.

Basis robots.txt syntaxis

Het robots.txt bestand gebruikt een eenvoudige syntaxis met slechts een paar commando's:

User-agent

Specificeert op welke bot de volgende regels van toepassing zijn. Gebruik * voor alle bots.

User-agent: GPTBot
User-agent: *

Disallow

Vertelt bots NIET specifieke paden te bereiken. Gebruik / om alles te blokkeren.

Disallow: /admin/
Disallow: /private/
Disallow: /

Allow

Vertelt bots dat ze specifieke paden KAN bereiken. Gebruik dit om een bredere Disallow regel te overschrijven.

Disallow: /admin/
Allow: /admin/public/

Crawl-delay

Stelt een vertraging in seconden in tussen botverzoeken. Niet ondersteund door alle bots.

Crawl-delay: 10

Sitemap

Wijst bots naar je XML-sitemap voor betere crawlefficiëntie.

Sitemap: https://yoursite.com/sitemap.xml

Veelvoorkomende robots.txt configuraties

Hier zijn kant-en-klare configuraties voor veelvoorkomende scenario's:

Sta alle AI-bots toe (Aanbevolen voor de meeste sites)

Deze configuratie verwelkomt alle AI-zoekmachines terwijl admingebieden worden beschermd:

# Allow all AI bots to crawl
User-agent: *
Allow: /

# Block private areas for all bots
Disallow: /admin/
Disallow: /api/
Disallow: /login/
Disallow: /dashboard/

# Sitemap location
Sitemap: https://yoursite.com/sitemap.xml

Blokkeer AI-training, sta AI-zoekopdrachten toe

Blokkeer bots gebruikt voor AI-modeltraining terwijl zoekbots worden toegestaan:

# Block training bots
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

# Allow search bots
User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

# Default rules for other bots
User-agent: *
Allow: /
Disallow: /admin/

Sitemap: https://yoursite.com/sitemap.xml

Selectieve contenttoegang

Sta AI-bots toe om toegang te krijgen tot blogcontent maar niet tot productpagina's:

# AI bots can access blog
User-agent: GPTBot
Allow: /blog/
Disallow: /

User-agent: ClaudeBot
Allow: /blog/
Disallow: /

# Default rules
User-agent: *
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

Blokkeer alle AI-bots

Als je volledig wilt uitschrijven uit AI-zoekopdrachten (niet aanbevolen voor zichtbaarheid):

# Block all known AI bots
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: CCBot
Disallow: /

# Allow traditional search engines
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

Best practices

Doe deze

Plaats robots.txt in je root directory

Gebruik één regel per regel

Voeg je sitemap locatie toe

Test je robots.txt na wijzigingen

Sta AI-bots toe voor betere GEO-zichtbaarheid

Houd het bestand onder 500KB

Vermijd deze

Gebruik robots.txt voor beveiliging

Blokkeer alle bots zonder reden

Gebruik reguliere expressies (niet ondersteund)

Vergeet te updaten na sitewijzigingen

Blokkeer CSS/JS nodig voor paginaweergave

Creëer meerdere robots.txt bestanden

Je robots.txt testen

Test altijd je robots.txt bestand voordat je het implementeert. Gebruik deze methoden:

Handmatig testen

Bezoek jouwsite.com/robots.txt in je browser om te verifiëren:

  • Het bestand is toegankelijk en laadt correct
  • Er zijn geen syntaxisfouten of typefouten
  • Alle user-agent namen zijn correct gespeld
  • Paden komen overeen met je werkelijke sitestructuur

Google Search Console

Gebruik Google's robots.txt Tester tool:

  • Ga naar Google Search Console
  • Navigeer naar Crawl → robots.txt Tester
  • Test specifieke URLs tegen je regels
  • Controleer op fouten en waarschuwingen

Online validators

Gebruik externe robots.txt validators:

  • Robots.txt Checker: Controleer syntaxis en dekking
  • Bloffee GEO Analyzer: Valideert robots.txt als onderdeel van volledige site-analyse
  • SEO Tools: Veel SEO-platforms bevatten robots.txt testen

Serverlog monitoring

Controleer je serverlogs om botgedrag te verifiëren:

  • Zoek naar AI bot user-agent strings in toegangslogs
  • Verifieer dat bots je regels respecteren
  • Identificeer ongeautoriseerd crawlen
  • Monitor crawlfrequentie en patronen

Geavanceerde configuraties

Rate limiting met Crawl-delay

Regel hoe snel bots je site crawlen om serverbelasting te verminderen:

User-agent: GPTBot
Crawl-delay: 10
Allow: /

User-agent: ClaudeBot
Crawl-delay: 5
Allow: /

Opmerking: Niet alle bots ondersteunen crawl-delay. Het is betrouwbaarder om server-side rate limiting te gebruiken.

Wildcard patronen

Gebruik wildcards om meerdere paden te matchen (ondersteund door de meeste moderne bots):

User-agent: *
# Block all PDF files
Disallow: /*.pdf$

# Block all URLs with query parameters
Disallow: /*?

# Block all admin pages
Disallow: /*/admin/

Meerdere Sitemaps

Lijst meerdere sitemaps voor verschillende contenttypes:

Sitemap: https://yoursite.com/sitemap-pages.xml
Sitemap: https://yoursite.com/sitemap-blog.xml
Sitemap: https://yoursite.com/sitemap-products.xml
Sitemap: https://yoursite.com/sitemap-images.xml

robots.txt snelle tips

  • Begin met het toestaan van alle AI-zoekbots voor maximale zichtbaarheid
  • Blokkeer alleen specifieke bots als je een sterke reden hebt
  • Voeg altijd je sitemap locatie toe
  • Test wijzigingen voordat je naar productie gaat
  • Monitor bot-toegang in je serverlogs
  • Update robots.txt wanneer je sitestructuur wijzigt
  • Onthoud: robots.txt is geen beveiligingsmaatregel

Impact op je GEO-Score

Je robots.txt configuratie beïnvloedt direct je AI Bot-toegang score, wat een belangrijk onderdeel is van je algemene GEO-Score.

Bloffee controleert je robots.txt op:

  • Of AI-bots toegang hebben tot je content
  • Correcte syntaxis en opmaak
  • Onbedoeld blokkeren van belangrijke pagina's
  • Sitemap declaratie
  • Overdreven restrictieve regels die zichtbaarheid schaden

Een goed geconfigureerde robots.txt die AI-bots verwelkomt kan je GEO-Score met 10-15 punten verbeteren. Het blokkeren van belangrijke bots kan je score met 20-30 punten of meer verlagen.

Klaar om je robots.txt te genereren?

Gebruik onze gratis robots.txt generator om in seconden een AI-geoptimaliseerde configuratie te creëren. Configureer 40+ bots met één klik.

Genereer robots.txt

Gerelateerde onderwerpen

robots.txt voor AI-bots: Volledige configuratiegids