Wat is AI-bot-toegang?
AI-bot-toegang meet of AI-crawlers — GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot, ChatGPT-User en andere — je pagina's daadwerkelijk kunnen bereiken en lezen. De check kijkt naar vier lagen: robots.txt-directives, server response codes, IP-gebaseerde blokkades vanuit CDN's en WAF's, en of content vergrendeld zit achter JavaScript of paywalls. Elke laag kan AI-zichtbaarheid stilletjes om zeep helpen, en veel sites worden op één of meer lagen geblokkeerd zonder het te beseffen.
Deze metric is de poortwachter voor de gehele GEO-Score. Een perfecte 100/100 op schema, vermeldingen, versheid en structuur levert exact nul AI-vermeldingen op als één Disallow-regel in robots.txt of een standaard WAF-regel crawlers wegstuurt. Cloudflare meldde in juli 2025 dat zijn netwerk AI-crawlers nu standaard blokkeert voor nieuwe klanten — wat betekent dat een aanzienlijk deel van het web van de ene op de andere dag onzichtbaar werd voor AI.
Waarom AI-bot-toegang belangrijk is
AI-zoeken is inmiddels een meetbaar deel van het totale webverkeer, maar het is ook de meest fragiele verkeersbron — één verkeerd geconfigureerde regel kan je aanwezigheid in ChatGPT, Claude en Perplexity tegelijk wegvagen. Drie krachten verklaren waarom bot-toegang aandacht verdient vóór elk ander GEO-werk.
Bot-toegang is een binaire poortwachter
AI-crawlers indexeren een geblokkeerde site niet gedeeltelijk — ze slaan hem helemaal over. Als GPTBot, ClaudeBot of PerplexityBot een 403, een robots.txt Disallow of een WAF-challenge krijgt, wordt de pagina voor AI-antwoorden behandeld alsof ze niet bestaat. Er is geen "verminderde zichtbaarheid"-uitkomst: het is volledige citatie-eligibility of helemaal geen.
De meeste blokkades zijn per ongeluk
Originality.ai vond dat GPTBot inmiddels door 35,7% van de top 1.000 websites wordt geblokkeerd, maar uit gesprekken met site-eigenaren blijkt dat veel van die blokkades zijn overgenomen uit standaard WAF-regelsets, gekopieerde robots.txt-templates of CDN-bot-fight-modes die GPTBot als een generieke scraper classificeren. Weinig van deze eigenaren wilden AI bewust blokkeren; ze vergaten het simpelweg toe te staan.
AI-crawlers zijn agressief — maar selectief
Cloudflare meldde dat GPTBot in ruwe requests 305% groeide tussen mei 2024 en mei 2025, terwijl PerplexityBot vanaf een kleine basis met 157.490% groeide. Dat volume komt met een budget: bots geven prioriteit aan sites die snel reageren, 200's teruggeven en content in de initiële HTML serveren. Sites die af en toe een 5xx geven, content achter JavaScript verbergen of AI-bots rate-limiten zien vermeldingen dalen, zelfs zonder expliciete blokkade.
Wat het onderzoek zegt
GPTBot increased its share of all crawler traffic from 2.2% to 7.7%, with a 305% rise in raw requests over 12 months — jumping from rank #9 to rank #3 among all web crawlers. PerplexityBot showed the most explosive growth at 157,490% from a minimal baseline. Yet only 14% of analyzed domains had any specific robots.txt directives targeting AI bots — leaving the other 86% silently allowing or blocking AI traffic by accident.
João Tomé, Jorge Pacheco, Carlos Azevedo — From Googlebot to GPTBot: Who's Crawling Your Site in 2025, Cloudflare Blog, July 2025 — analysis of 3,816 top domains
GPTBot is now blocked by 35.7% of the top 1,000 websites, up from just 5% when it was first introduced in August 2023. The percentage of sites blocking GPTBot was increasing by approximately 5% per week in the early stages following the bot's announcement. Many of these blocks were inherited from default templates and CDN rules rather than deliberate policy decisions.
Originality.ai — GPTBot Blocking Tracker, August 2024 update — quarterly study of the Quantcast top 1,000 websites since GPTBot launch
Anthropic's crawl-to-referral ratio peaked near 500,000:1 early in 2025 before settling between 25,000:1 and 100,000:1, while OpenAI's GPTBot ratio spiked to roughly 3,700:1 in March 2025. This imbalance — bots taking far more than they return in human visits — is the main reason publishers are tempted to block, but for any site that is not a major news brand, blocking removes the only path to AI search citations entirely.
Cloudflare Radar — The crawl-to-click gap: AI bots, training, and referrals, 2025 — multi-month analysis of crawler-to-human-referral ratios across the Cloudflare network
3 echte bot-toegangsscenario's
Deze drie patronen laten zien hoe dezelfde content voor AI onzichtbaar of volledig citeerbaar kan zijn, afhankelijk van een paar configuratieregels. Elke "slechte" case is een echt patroon dat in audits is gezien — de "goede" versie is de minimale fix die content beschermt waar dat moet, terwijl AI-bots elders worden doorgelaten.
Voorbeeld 1: Regionale nieuwssite met standaard robots.txt
Een regionale nieuwsuitgever gebruikt een CMS-template met een robots.txt die User-agent: GPTBot / Disallow: / en User-agent: ClaudeBot / Disallow: / bevat. Het redactieteam weet niet dat deze regels bestaan. De site heeft hoge E-E-A-T, dagelijks bijgewerkte artikelen en goede schema, maar in 18 maanden hebben ChatGPT en Claude geen enkel artikel geciteerd. Serverlogs bevestigen dat GPTBot om de paar uur op /robots.txt landt en weer vertrekt.
Waarom dit faalt: de Disallow op het rootpad zegt GPTBot en ClaudeBot het hele domein over te slaan. Beide bots respecteren robots.txt, dus alle redactionele investeringen leveren nul AI-vermeldingen op. De uitgever begrijpt niet waarom concurrenten met zwakkere content dagelijks worden geciteerd — totdat iemand de robots.txt leest.
De uitgever herschrijft robots.txt naar: User-agent: GPTBot / Allow: / / User-agent: OAI-SearchBot / Allow: / / User-agent: ChatGPT-User / Allow: / / User-agent: ClaudeBot / Allow: / / User-agent: PerplexityBot / Allow: / / Sitemap: https://news.example.com/sitemap.xml. Serverlogs worden wekelijks gesampled om 200-responses te bevestigen en de crawlfrequentie per bot bij te houden. Binnen vier weken begint ChatGPT search recente artikelen bij naam te citeren.
Waarom dit werkt: expliciete Allow-regels overschrijven elke geërfde template-default en signaleren intentie naar elke AI-crawler. Door zowel training-bots (GPTBot, ClaudeBot) als zoekbots tijdens query (OAI-SearchBot, ChatGPT-User) op te nemen, dek je zowel trainingsdata-vermeldingen als live antwoord-fetches af. De sitemap-regel vertelt crawlers precies welke URL's voorrang krijgen — zodat nieuwe artikelen binnen dagen, niet maanden, in AI-antwoorden verschijnen.
Voorbeeld 2: E-commerce-merk achter een standaard WAF
Een middelgroot e-commerce-merk op Cloudflare heeft een schone robots.txt die alle AI-bots toestaat. Maar de WAF heeft "Block AI bots" aanstaan in Super Bot Fight Mode én een aangepaste regel die elke user-agent met "bot" blokkeert die niet Googlebot of Bingbot is. AI-crawlers krijgen op elk verzoek een 403 Forbidden. Productpagina's, koopgidsen en categoriepagina's komen nooit in AI-trainingsdata of live zoekindexen.
Waarom dit faalt: de robots.txt is eerlijk, maar de WAF wordt eerst uitgevoerd. De documentatie van Cloudflare stelt expliciet dat de AI-bot-blokregel voorrang heeft op Allow Verified Bots — dus zelfs door Cloudflare op IP geverifieerde AI-crawlers worden geblokkeerd. Het merk ziet nul ChatGPT- of Perplexity-referrals, ook al zijn de contentkwaliteitsscores uitstekend.
Het merk schakelt de generieke "Block AI bots"-toggle uit en maakt in plaats daarvan een Cloudflare AI Crawl Control allow-list voor GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, PerplexityBot en Google-Extended. De aangepaste WAF-regel wordt herschreven om ongeverifieerde bots te challengen terwijl geverifieerde AI-crawlers worden doorgelaten. Een maandelijkse review checkt AI-crawllogs, en elke commercieel relevante nieuwe AI-bot wordt binnen 7 dagen aan de allow-list toegevoegd.
Waarom dit werkt: geverifieerde AI-bots komen binnen via gepubliceerde IP-ranges die Cloudflare authenticeert — de allow-list vertrouwt de bot-identiteit, niet alleen de user-agent string (die scrapers kunnen vervalsen). Het merk behoudt zijn bescherming tegen kwaadaardige scrapers en zet tegelijkertijd de deur open voor elke AI-zoekmachine die aankopen kan stimuleren. Binnen een kwartaal verschijnt het merk in ChatGPT-shopping-antwoorden bij koopintentie-queries.
Voorbeeld 3: Abonnementsuitgever met harde paywall
Een B2B-abonnementspublicatie toont een teaser van 50 woorden en daarna een full-page login-modal, geserveerd via JavaScript bij paginalading. AI-crawlers zoals GPTBot voeren geen JavaScript uit, dus ze zien de teaser plus de modal-HTML. Artikelen worden nooit getraind, en op zoektijdstip hebben AI-zoekmachines niets om te citeren — ze vallen terug op concurrentie-bronnen die over dezelfde onderwerpen openlijk schrijven. De abonnementsgroei vertraagt omdat het merk nooit verschijnt in AI-antwoorden waar besluitvormers leveranciers onderzoeken.
Waarom dit faalt: AI-crawlers halen alleen ruwe HTML op. Een via JavaScript geïnjecteerde paywall is voor mensen onzichtbaar (laadt erna) maar blokkeert AI volledig — die zien alleen de teaser van 50 woorden. Er is geen pad waardoor de expertise van de uitgever in AI-trainingsdata of live antwoord-pipelines komt, ook al is de redactionele kwaliteit de hoogste in de sector.
De uitgever introduceert voor elk artikel een "executive summary" van 250 woorden die in de initiële HTML wordt gerenderd: de kernbevinding, het datapunt, de aanbeveling en de bron. De volledige diepteanalyse blijft achter de paywall. Robots.txt staat GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot en Google-Extended toe. Schema.org Article markup met paywalledContent-annotatie vertelt crawlers welke secties een abonnement vereisen, terwijl de samenvattingsectie vrij indexeerbaar is.
Waarom dit werkt: AI-crawlers hebben nu voor elk artikel substantiële, citeerbare content — de samenvatting is lang genoeg om een compleet antwoord te zijn (volgens het Answer Completeness-onderzoek zijn losstaande passages van 200 woorden ideaal). Wanneer een besluitvormer ChatGPT vraagt "wie is de leidende bron over X", wordt de samenvatting van de uitgever geciteerd en converteert de doorklik naar het volledige rapport. De paywall beschermt abonnementsinkomsten, terwijl AI een top-of-funnel acquisitiekanaal wordt.
Hoe verbeter je je AI-bot-toegangsscore
Doe dit NIET
- ✗Gebruik niet User-agent: * / Disallow: / of een algemene blokkade in robots.txt — dit doodt AI-toegang voor elke crawler in één regel, inclusief degenen die je wilt
- ✗Laat standaard WAF-toggles "Block AI bots" niet ongezien aan — Cloudflare en andere CDN's leveren steeds vaker AI-blokkades standaard aan, ook voor geverifieerde bots
- ✗Blokkeer niet alleen op user-agent string — scrapers vervalsen "GPTBot" eenvoudig en legitieme bots zijn te imiteren; verifieer op IP-range of gebruik door de CDN geverifieerde botlijsten
- ✗Sluit primaire content niet op achter JavaScript-gerenderde componenten of single-page-app-routes — GPTBot, ClaudeBot en PerplexityBot voeren geen JavaScript uit en zien alleen de initiële HTML-shell
- ✗Sla server-log monitoring op AI-bots niet over — zonder wekelijkse checks van GPTBot-, ClaudeBot- en PerplexityBot-hits kunnen onbedoelde blokkades maandenlang voortduren voordat iemand het ontbrekende AI-verkeer opmerkt
Doe dit in plaats daarvan
- ✓Voeg expliciete User-agent: GPTBot / Allow: / toe, plus equivalenten voor ClaudeBot, PerplexityBot, OAI-SearchBot, ChatGPT-User, Google-Extended en Applebot-Extended in robots.txt
- ✓Whitelist geverifieerde AI-bots in je WAF op basis van hun gepubliceerde IP-ranges — Cloudflare AI Crawl Control, Vercel AI Bot Manager en Akamai bieden dit allemaal aan
- ✓Render de eerste 200-500 woorden van elke belangrijke pagina server-side of pre-render ze, zodat AI-crawlers in de initiële HTML-respons substantiële content zien
- ✓Sample wekelijks je serverlogs op hits van GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot en Google-Extended — bevestig 200-responses, een gemiddelde responstijd onder 2 seconden en stabiele crawlfrequentie
- ✓Heb je een paywall, toon dan een executive summary van 200-300 woorden in HTML en gebruik Schema.org paywalledContent om beschermde secties te markeren — dat behoudt je inkomsten en houdt je in aanmerking voor AI-vermelding
Snelle tips voor AI-bot-toegang
- •Gebruik altijd expliciete Allow-regels per AI-bot — "User-agent: * / Allow: /" lijkt permissief maar signaleert geen intentie en veel WAF's overschrijven het
- •Check je CDN-dashboard vóór robots.txt — de wijziging van Cloudflare in juli 2025 blokkeert AI-crawlers standaard voor nieuwe klanten, ongeacht wat je robots.txt zegt
- •Sta zowel training-bots (GPTBot, ClaudeBot) als zoekbots tijdens query (OAI-SearchBot, ChatGPT-User, Claude-SearchBot, PerplexityBot) toe — ze bedienen verschillende delen van de AI-antwoord-pipeline
- •Vertrouw niet op llms.txt als primair toegangsmechanisme — eind 2025 leest geen enkele grote AI-crawler het; robots.txt blijft de enige universeel gehonoreerde standaard
- •Render kritieke content server-side of via SSG — alleen Googlebot voert betrouwbaar JavaScript uit onder grote crawlers, dus alleen via JS gerenderde content is onzichtbaar voor GPTBot, ClaudeBot en PerplexityBot
- •Sample je access logs wekelijks op de AI-user-agent strings — een plotselinge daling naar nul is het vroegste signaal van een onbedoelde blokkade door een CDN-update of WAF-regelwijziging
Veelgestelde vragen
Moet ik GPTBot blokkeren om mijn content tegen AI-training te beschermen?
Wat is de impact van AI-bots toestaan op mijn GEO-Score?
Wat is het verschil tussen GPTBot, ChatGPT-User en OAI-SearchBot?
Beïnvloedt het blokkeren van Google-Extended mijn Google Search-rankings?
Waarom crawlen AI-bots mijn site zo vaak zonder verkeer terug te sturen?
Moet ik een llms.txt-bestand naast robots.txt implementeren?
Gerelateerde metrics om te verkennen
- Page Speed
Trage responses zorgen ervoor dat AI-crawlers timeouten — page speed maakt van "toegestaan" pas "echt crawlbaar"
- Sitemap & vindbaarheid
Zodra bots je site kunnen bereiken, bepalen je sitemap en linkstructuur welke pagina's ze daadwerkelijk vinden
- Schema-validator
Schema markup helpt AI-crawlers toegankelijke pagina's te interpreteren — inclusief paywalledContent-annotaties voor hybride modellen
- AI-optimalisatie
De koepelscore die bot-toegang, schema, structuur en versheid combineert tot één AI-readiness-signaal