AI-bot-toegang: 5,6 mln sites blokkeren GPTBot

Wat is AI-bot-toegang?

AI-bot-toegang meet of AI-crawlers — GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot, ChatGPT-User en andere — je pagina's daadwerkelijk kunnen bereiken en lezen. De check kijkt naar vier lagen: robots.txt-directives, server response codes, IP-gebaseerde blokkades vanuit CDN's en WAF's, en of content vergrendeld zit achter JavaScript of paywalls. Elke laag kan AI-zichtbaarheid stilletjes om zeep helpen, en veel sites worden op één of meer lagen geblokkeerd zonder het te beseffen.

Deze metric is de poortwachter voor de gehele GEO-Score. Een perfecte 100/100 op schema, vermeldingen, versheid en structuur levert exact nul AI-vermeldingen op als één Disallow-regel in robots.txt of een standaard WAF-regel crawlers wegstuurt. Cloudflare meldde in juli 2025 dat zijn netwerk AI-crawlers nu standaard blokkeert voor nieuwe klanten — wat betekent dat een aanzienlijk deel van het web van de ene op de andere dag onzichtbaar werd voor AI.

Waarom AI-bot-toegang belangrijk is

AI-zoeken is inmiddels een meetbaar deel van het totale webverkeer, maar het is ook de meest fragiele verkeersbron — één verkeerd geconfigureerde regel kan je aanwezigheid in ChatGPT, Claude en Perplexity tegelijk wegvagen. Drie krachten verklaren waarom bot-toegang aandacht verdient vóór elk ander GEO-werk.

Bot-toegang is een binaire poortwachter

AI-crawlers indexeren een geblokkeerde site niet gedeeltelijk — ze slaan hem helemaal over. Als GPTBot, ClaudeBot of PerplexityBot een 403, een robots.txt Disallow of een WAF-challenge krijgt, wordt de pagina voor AI-antwoorden behandeld alsof ze niet bestaat. Er is geen "verminderde zichtbaarheid"-uitkomst: het is volledige citatie-eligibility of helemaal geen.

De meeste blokkades zijn per ongeluk

Originality.ai vond dat GPTBot inmiddels door 35,7% van de top 1.000 websites wordt geblokkeerd, maar uit gesprekken met site-eigenaren blijkt dat veel van die blokkades zijn overgenomen uit standaard WAF-regelsets, gekopieerde robots.txt-templates of CDN-bot-fight-modes die GPTBot als een generieke scraper classificeren. Weinig van deze eigenaren wilden AI bewust blokkeren; ze vergaten het simpelweg toe te staan.

AI-crawlers zijn agressief — maar selectief

Cloudflare meldde dat GPTBot in ruwe requests 305% groeide tussen mei 2024 en mei 2025, terwijl PerplexityBot vanaf een kleine basis met 157.490% groeide. Dat volume komt met een budget: bots geven prioriteit aan sites die snel reageren, 200's teruggeven en content in de initiële HTML serveren. Sites die af en toe een 5xx geven, content achter JavaScript verbergen of AI-bots rate-limiten zien vermeldingen dalen, zelfs zonder expliciete blokkade.

Wat het onderzoek zegt

GPTBot increased its share of all crawler traffic from 2.2% to 7.7%, with a 305% rise in raw requests over 12 months — jumping from rank #9 to rank #3 among all web crawlers. PerplexityBot showed the most explosive growth at 157,490% from a minimal baseline. Yet only 14% of analyzed domains had any specific robots.txt directives targeting AI bots — leaving the other 86% silently allowing or blocking AI traffic by accident.
João Tomé, Jorge Pacheco, Carlos Azevedo — From Googlebot to GPTBot: Who's Crawling Your Site in 2025, Cloudflare Blog, July 2025 — analysis of 3,816 top domains

GPTBot is now blocked by 35.7% of the top 1,000 websites, up from just 5% when it was first introduced in August 2023. The percentage of sites blocking GPTBot was increasing by approximately 5% per week in the early stages following the bot's announcement. Many of these blocks were inherited from default templates and CDN rules rather than deliberate policy decisions.
Originality.ai — GPTBot Blocking Tracker, August 2024 update — quarterly study of the Quantcast top 1,000 websites since GPTBot launch

Anthropic's crawl-to-referral ratio peaked near 500,000:1 early in 2025 before settling between 25,000:1 and 100,000:1, while OpenAI's GPTBot ratio spiked to roughly 3,700:1 in March 2025. This imbalance — bots taking far more than they return in human visits — is the main reason publishers are tempted to block, but for any site that is not a major news brand, blocking removes the only path to AI search citations entirely.
Cloudflare Radar — The crawl-to-click gap: AI bots, training, and referrals, 2025 — multi-month analysis of crawler-to-human-referral ratios across the Cloudflare network

3 echte bot-toegangsscenario's

Deze drie patronen laten zien hoe dezelfde content voor AI onzichtbaar of volledig citeerbaar kan zijn, afhankelijk van een paar configuratieregels. Elke "slechte" case is een echt patroon dat in audits is gezien — de "goede" versie is de minimale fix die content beschermt waar dat moet, terwijl AI-bots elders worden doorgelaten.

Voorbeeld 1: Regionale nieuwssite met standaard robots.txt

Geblokkeerd — onzichtbaar voor ChatGPT en Claude

Een regionale nieuwsuitgever gebruikt een CMS-template met een robots.txt die User-agent: GPTBot / Disallow: / en User-agent: ClaudeBot / Disallow: / bevat. Het redactieteam weet niet dat deze regels bestaan. De site heeft hoge E-E-A-T, dagelijks bijgewerkte artikelen en goede schema, maar in 18 maanden hebben ChatGPT en Claude geen enkel artikel geciteerd. Serverlogs bevestigen dat GPTBot om de paar uur op /robots.txt landt en weer vertrekt.

Waarom dit faalt: de Disallow op het rootpad zegt GPTBot en ClaudeBot het hele domein over te slaan. Beide bots respecteren robots.txt, dus alle redactionele investeringen leveren nul AI-vermeldingen op. De uitgever begrijpt niet waarom concurrenten met zwakkere content dagelijks worden geciteerd — totdat iemand de robots.txt leest.

Toegestaan en bijgehouden — volledige AI-zichtbaarheid hersteld

De uitgever herschrijft robots.txt naar: User-agent: GPTBot / Allow: / / User-agent: OAI-SearchBot / Allow: / / User-agent: ChatGPT-User / Allow: / / User-agent: ClaudeBot / Allow: / / User-agent: PerplexityBot / Allow: / / Sitemap: https://news.example.com/sitemap.xml. Serverlogs worden wekelijks gesampled om 200-responses te bevestigen en de crawlfrequentie per bot bij te houden. Binnen vier weken begint ChatGPT search recente artikelen bij naam te citeren.

Waarom dit werkt: expliciete Allow-regels overschrijven elke geërfde template-default en signaleren intentie naar elke AI-crawler. Door zowel training-bots (GPTBot, ClaudeBot) als zoekbots tijdens query (OAI-SearchBot, ChatGPT-User) op te nemen, dek je zowel trainingsdata-vermeldingen als live antwoord-fetches af. De sitemap-regel vertelt crawlers precies welke URL's voorrang krijgen — zodat nieuwe artikelen binnen dagen, niet maanden, in AI-antwoorden verschijnen.

Voorbeeld 2: E-commerce-merk achter een standaard WAF

WAF blokkeert AI-bots stilletjes — geen probleem in robots.txt, toch onzichtbaar

Een middelgroot e-commerce-merk op Cloudflare heeft een schone robots.txt die alle AI-bots toestaat. Maar de WAF heeft "Block AI bots" aanstaan in Super Bot Fight Mode én een aangepaste regel die elke user-agent met "bot" blokkeert die niet Googlebot of Bingbot is. AI-crawlers krijgen op elk verzoek een 403 Forbidden. Productpagina's, koopgidsen en categoriepagina's komen nooit in AI-trainingsdata of live zoekindexen.

Waarom dit faalt: de robots.txt is eerlijk, maar de WAF wordt eerst uitgevoerd. De documentatie van Cloudflare stelt expliciet dat de AI-bot-blokregel voorrang heeft op Allow Verified Bots — dus zelfs door Cloudflare op IP geverifieerde AI-crawlers worden geblokkeerd. Het merk ziet nul ChatGPT- of Perplexity-referrals, ook al zijn de contentkwaliteitsscores uitstekend.

Selectieve WAF-whitelist — blokkeer scrapers, laat genoemde AI-bots door

Het merk schakelt de generieke "Block AI bots"-toggle uit en maakt in plaats daarvan een Cloudflare AI Crawl Control allow-list voor GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, PerplexityBot en Google-Extended. De aangepaste WAF-regel wordt herschreven om ongeverifieerde bots te challengen terwijl geverifieerde AI-crawlers worden doorgelaten. Een maandelijkse review checkt AI-crawllogs, en elke commercieel relevante nieuwe AI-bot wordt binnen 7 dagen aan de allow-list toegevoegd.

Waarom dit werkt: geverifieerde AI-bots komen binnen via gepubliceerde IP-ranges die Cloudflare authenticeert — de allow-list vertrouwt de bot-identiteit, niet alleen de user-agent string (die scrapers kunnen vervalsen). Het merk behoudt zijn bescherming tegen kwaadaardige scrapers en zet tegelijkertijd de deur open voor elke AI-zoekmachine die aankopen kan stimuleren. Binnen een kwartaal verschijnt het merk in ChatGPT-shopping-antwoorden bij koopintentie-queries.

Voorbeeld 3: Abonnementsuitgever met harde paywall

Harde paywall — AI ziet een loginmuur, niet het artikel

Een B2B-abonnementspublicatie toont een teaser van 50 woorden en daarna een full-page login-modal, geserveerd via JavaScript bij paginalading. AI-crawlers zoals GPTBot voeren geen JavaScript uit, dus ze zien de teaser plus de modal-HTML. Artikelen worden nooit getraind, en op zoektijdstip hebben AI-zoekmachines niets om te citeren — ze vallen terug op concurrentie-bronnen die over dezelfde onderwerpen openlijk schrijven. De abonnementsgroei vertraagt omdat het merk nooit verschijnt in AI-antwoorden waar besluitvormers leveranciers onderzoeken.

Waarom dit faalt: AI-crawlers halen alleen ruwe HTML op. Een via JavaScript geïnjecteerde paywall is voor mensen onzichtbaar (laadt erna) maar blokkeert AI volledig — die zien alleen de teaser van 50 woorden. Er is geen pad waardoor de expertise van de uitgever in AI-trainingsdata of live antwoord-pipelines komt, ook al is de redactionele kwaliteit de hoogste in de sector.

Hybride model — voor AI leesbare samenvatting plus paywall

De uitgever introduceert voor elk artikel een "executive summary" van 250 woorden die in de initiële HTML wordt gerenderd: de kernbevinding, het datapunt, de aanbeveling en de bron. De volledige diepteanalyse blijft achter de paywall. Robots.txt staat GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot en Google-Extended toe. Schema.org Article markup met paywalledContent-annotatie vertelt crawlers welke secties een abonnement vereisen, terwijl de samenvattingsectie vrij indexeerbaar is.

Waarom dit werkt: AI-crawlers hebben nu voor elk artikel substantiële, citeerbare content — de samenvatting is lang genoeg om een compleet antwoord te zijn (volgens het Answer Completeness-onderzoek zijn losstaande passages van 200 woorden ideaal). Wanneer een besluitvormer ChatGPT vraagt "wie is de leidende bron over X", wordt de samenvatting van de uitgever geciteerd en converteert de doorklik naar het volledige rapport. De paywall beschermt abonnementsinkomsten, terwijl AI een top-of-funnel acquisitiekanaal wordt.

Hoe verbeter je je AI-bot-toegangsscore

Doe dit NIET

✗Gebruik niet User-agent: * / Disallow: / of een algemene blokkade in robots.txt — dit doodt AI-toegang voor elke crawler in één regel, inclusief degenen die je wilt
✗Laat standaard WAF-toggles "Block AI bots" niet ongezien aan — Cloudflare en andere CDN's leveren steeds vaker AI-blokkades standaard aan, ook voor geverifieerde bots
✗Blokkeer niet alleen op user-agent string — scrapers vervalsen "GPTBot" eenvoudig en legitieme bots zijn te imiteren; verifieer op IP-range of gebruik door de CDN geverifieerde botlijsten
✗Sluit primaire content niet op achter JavaScript-gerenderde componenten of single-page-app-routes — GPTBot, ClaudeBot en PerplexityBot voeren geen JavaScript uit en zien alleen de initiële HTML-shell
✗Sla server-log monitoring op AI-bots niet over — zonder wekelijkse checks van GPTBot-, ClaudeBot- en PerplexityBot-hits kunnen onbedoelde blokkades maandenlang voortduren voordat iemand het ontbrekende AI-verkeer opmerkt

Doe dit in plaats daarvan

✓Voeg expliciete User-agent: GPTBot / Allow: / toe, plus equivalenten voor ClaudeBot, PerplexityBot, OAI-SearchBot, ChatGPT-User, Google-Extended en Applebot-Extended in robots.txt
✓Whitelist geverifieerde AI-bots in je WAF op basis van hun gepubliceerde IP-ranges — Cloudflare AI Crawl Control, Vercel AI Bot Manager en Akamai bieden dit allemaal aan
✓Render de eerste 200-500 woorden van elke belangrijke pagina server-side of pre-render ze, zodat AI-crawlers in de initiële HTML-respons substantiële content zien
✓Sample wekelijks je serverlogs op hits van GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot en Google-Extended — bevestig 200-responses, een gemiddelde responstijd onder 2 seconden en stabiele crawlfrequentie
✓Heb je een paywall, toon dan een executive summary van 200-300 woorden in HTML en gebruik Schema.org paywalledContent om beschermde secties te markeren — dat behoudt je inkomsten en houdt je in aanmerking voor AI-vermelding

Snelle tips voor AI-bot-toegang

•Gebruik altijd expliciete Allow-regels per AI-bot — "User-agent: * / Allow: /" lijkt permissief maar signaleert geen intentie en veel WAF's overschrijven het
•Check je CDN-dashboard vóór robots.txt — de wijziging van Cloudflare in juli 2025 blokkeert AI-crawlers standaard voor nieuwe klanten, ongeacht wat je robots.txt zegt
•Sta zowel training-bots (GPTBot, ClaudeBot) als zoekbots tijdens query (OAI-SearchBot, ChatGPT-User, Claude-SearchBot, PerplexityBot) toe — ze bedienen verschillende delen van de AI-antwoord-pipeline
•Vertrouw niet op llms.txt als primair toegangsmechanisme — eind 2025 leest geen enkele grote AI-crawler het; robots.txt blijft de enige universeel gehonoreerde standaard
•Render kritieke content server-side of via SSG — alleen Googlebot voert betrouwbaar JavaScript uit onder grote crawlers, dus alleen via JS gerenderde content is onzichtbaar voor GPTBot, ClaudeBot en PerplexityBot
•Sample je access logs wekelijks op de AI-user-agent strings — een plotselinge daling naar nul is het vroegste signaal van een onbedoelde blokkade door een CDN-update of WAF-regelwijziging

Veelgestelde vragen

Moet ik GPTBot blokkeren om mijn content tegen AI-training te beschermen?

Voor de meeste sites: nee. Originality.ai vond dat 35,7% van de top 1.000 sites GPTBot blokkeert, maar een Hack/Hackers-analyse liet zien dat grote uitgevers die AI-bots blokkeerden vervolgens ongeveer 23% van hun verkeer verloren. Tenzij je een licentiedeal van miljoenen dollars hebt (NYT-Amazon, News Corp-OpenAI) of je businessmodel afhankelijk is van afgeschermde expertise, haalt blokkeren je enige route naar AI-zoekresultaten weg — en daar starten klanten steeds vaker hun journey. De default voor niet-uitgevers zou Allow moeten zijn.

Wat is de impact van AI-bots toestaan op mijn GEO-Score?

AI-bots toestaan is de voorwaarde voor elke andere GEO-metric. De analyser behandelt bot-toegang als een poortfactor: als AI-crawlers je pagina's niet kunnen bereiken, worden je scores voor vermeldingen, schema, contentstructuur en versheid puur theoretisch. Sites die overstappen van blokkeren naar toestaan, zien doorgaans binnen 2-6 weken AI-gedreven verkeer verschijnen, afhankelijk van hoe vaak elke bot herrcrawlt. De wijziging heeft geen negatieve SEO-impact omdat Googlebot en Google-Extended onafhankelijk zijn — een blokkeren beïnvloedt het andere niet.

Wat is het verschil tussen GPTBot, ChatGPT-User en OAI-SearchBot?

OpenAI gebruikt drie crawlers voor verschillende doelen. GPTBot crawlt breed om trainingsdata voor toekomstige modelversies te verzamelen. OAI-SearchBot indexeert pagina's voor de ingebouwde zoekfunctie van ChatGPT, die in real-time resultaten oppert tijdens gesprekken. ChatGPT-User wordt getriggerd wanneer een individuele ChatGPT-gebruiker het model vraagt een specifieke URL op te halen of een onderwerp te browsen. Voor volledige zichtbaarheid in het OpenAI-ecosysteem moet je alle drie toestaan — alleen GPTBot blokkeren stopt enkel inclusie in trainingsdata, niet live vermeldingen.

Beïnvloedt het blokkeren van Google-Extended mijn Google Search-rankings?

Nee. De officiële documentatie van Google stelt dat Google-Extended een aparte token is van Googlebot, en blokkeren heeft geen impact op zoekrankings, indexatie of zichtbaarheid. Google-Extended bepaalt alleen of je content gebruikt mag worden om Gemini te trainen en om antwoorden in Google AI Overviews te onderbouwen. Veel uitgevers blokkeren Google-Extended om gebruik in trainingsdata te beperken, terwijl ze hun volledige Search-aanwezigheid behouden — al verkleint dat ook de kans om in AI Overviews geciteerd te worden.

Waarom crawlen AI-bots mijn site zo vaak zonder verkeer terug te sturen?

Dit is de crawl-to-referral gap. Cloudflare's analyse uit 2025 vond dat de ratio van Anthropic piekte bij ongeveer 500.000:1 (500.000 page fetches per menselijke referral) voor hij stabiliseerde tussen 25.000:1 en 100.000:1, terwijl OpenAI's GPTBot-ratio rond de 1.200-3.700:1 zat. De disbalans is reëel, maar het alternatief — blokkeren — schakelt de kleine maar groeiende referral-stroom volledig uit en haalt je weg uit de antwoorden die gebruikers zien, ook als die antwoorden niet doorklikken. Voor de meeste sites is de beste reactie om toegang toe te staan en tegelijk crawl-efficiëntie te waarborgen (snelle responses, accurate sitemaps) in plaats van te blokkeren.

Moet ik een llms.txt-bestand naast robots.txt implementeren?

Niet als vervanging van robots.txt. Het llms.txt-voorstel van Jeremy Howard (september 2024) is een interessante standaard om AI naar waardevolle resources te leiden, maar eind 2025 heeft geen enkele grote AI-crawler — OpenAI, Anthropic, Google, Perplexity — bevestigd dat ze llms.txt lezen of volgen. Een audit van serverlogs op honderden sites in oktober 2025 vond nul LLM-crawlers die llms.txt-bestanden opvroegen. Het kost weinig om het toe te voegen als toekomstbestendige maatregel, maar elke toegangsbeslissing van vandaag hangt nog steeds af van robots.txt, server response codes en CDN/WAF-configuratie.

Gerelateerde metrics om te verkennen

Page Speed
Trage responses zorgen ervoor dat AI-crawlers timeouten — page speed maakt van "toegestaan" pas "echt crawlbaar"
Sitemap & vindbaarheid
Zodra bots je site kunnen bereiken, bepalen je sitemap en linkstructuur welke pagina's ze daadwerkelijk vinden
Schema-validator
Schema markup helpt AI-crawlers toegankelijke pagina's te interpreteren — inclusief paywalledContent-annotaties voor hybride modellen
AI-optimalisatie
De koepelscore die bot-toegang, schema, structuur en versheid combineert tot één AI-readiness-signaal

AI-bot-toegang