AI-bot-adgang: 5,6 mio. sites blokerer GPTBot

Hvad er AI-bot-adgang?

AI-bot-adgang måler, om AI-crawlere — GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot, ChatGPT-User og andre — faktisk kan nå og læse dine sider. Tjekket ser på fire lag: robots.txt-direktiver, server-responskoder, IP-baseret blokering fra CDN'er og WAF'er, og om indhold er låst bag JavaScript eller betalingsmure. Hvert lag kan stille og roligt dræbe AI-synlighed, og mange sites er blokeret på et eller flere uden at vide det.

Denne metrik er portvogteren for hele GEO-Score. En perfekt 100/100 på schema, citater, friskhed og struktur giver præcis nul AI-citater, hvis en enkelt Disallow-linje i robots.txt eller en standard-WAF-regel afviser crawlere. Cloudflare rapporterede i juli 2025, at deres netværk nu blokerer AI-crawlere som standard for nye kunder — hvilket betyder, at en betydelig del af nettet gik mørk for AI fra den ene dag til den anden.

Hvorfor AI-bot-adgang er vigtig

AI-søgning er nu en målbar andel af den samlede webtrafik, men det er også den mest skrøbelige trafikkilde — én forkert konfigureret regel kan slette din tilstedeværelse fra ChatGPT, Claude og Perplexity samtidigt. Tre faktorer forklarer, hvorfor bot-adgang fortjener opmærksomhed før alt andet GEO-arbejde.

Bot-adgang er en binær portvogter

AI-crawlere indekserer ikke et blokeret site delvist — de springer det helt over. Hvis GPTBot, ClaudeBot eller PerplexityBot modtager en 403, en robots.txt Disallow eller en WAF-udfordring, behandles siden som ikke-eksisterende for AI-svar. Der er intet "reduceret synlighed"-resultat: det er fuld citationsberettigelse eller slet ingen.

De fleste blokeringer sker ved et uheld

Originality.ai fandt, at GPTBot nu blokeres af 35,7 % af de top 1.000 websteder, men interviews med site-ejere viser, at mange af disse blokeringer er arvet fra standard-WAF-regelsæt, copy-paste-robots.txt-skabeloner eller CDN-bot-fight-tilstande, der klassificerer GPTBot som en generisk scraper. Få af disse ejere besluttede at blokere AI; de glemte simpelthen at tillade det.

AI-crawlere er aggressive — men selektive

Cloudflare rapporterede, at GPTBot voksede 305 % i rå anmodninger mellem maj 2024 og maj 2025, mens PerplexityBot voksede 157.490 % fra et lille udgangspunkt. Den volumen kommer med et budget: bots prioriterer sites, der svarer hurtigt, returnerer 200'ere og leverer indhold i den indledende HTML. Sites, der intermitterende returnerer 5xx, skjuler indhold bag JavaScript eller rate-limiterer AI-bots, ser citater falde, selv uden en eksplicit blokering.

Hvad forskningen siger

GPTBot increased its share of all crawler traffic from 2.2% to 7.7%, with a 305% rise in raw requests over 12 months — jumping from rank #9 to rank #3 among all web crawlers. PerplexityBot showed the most explosive growth at 157,490% from a minimal baseline. Yet only 14% of analyzed domains had any specific robots.txt directives targeting AI bots — leaving the other 86% silently allowing or blocking AI traffic by accident.
João Tomé, Jorge Pacheco, Carlos Azevedo — From Googlebot to GPTBot: Who's Crawling Your Site in 2025, Cloudflare Blog, July 2025 — analysis of 3,816 top domains

GPTBot is now blocked by 35.7% of the top 1,000 websites, up from just 5% when it was first introduced in August 2023. The percentage of sites blocking GPTBot was increasing by approximately 5% per week in the early stages following the bot's announcement. Many of these blocks were inherited from default templates and CDN rules rather than deliberate policy decisions.
Originality.ai — GPTBot Blocking Tracker, August 2024 update — quarterly study of the Quantcast top 1,000 websites since GPTBot launch

Anthropic's crawl-to-referral ratio peaked near 500,000:1 early in 2025 before settling between 25,000:1 and 100,000:1, while OpenAI's GPTBot ratio spiked to roughly 3,700:1 in March 2025. This imbalance — bots taking far more than they return in human visits — is the main reason publishers are tempted to block, but for any site that is not a major news brand, blocking removes the only path to AI search citations entirely.
Cloudflare Radar — The crawl-to-click gap: AI bots, training, and referrals, 2025 — multi-month analysis of crawler-to-human-referral ratios across the Cloudflare network

3 virkelige bot-adgang-scenarier

Disse tre mønstre viser, hvordan det samme indhold kan være usynligt eller fuldt citerbart for AI afhængigt af nogle få konfigurationslinjer. Hvert "dårligt" tilfælde er et reelt mønster observeret i audits — den "gode" version er minimumsfix'et, der holder indhold beskyttet, hvor det skal være, mens AI-bots lukkes ind alle andre steder.

Eksempel 1: Regionalt nyhedssite med standard-robots.txt

Blokeret — usynlig for ChatGPT og Claude

En regional nyhedsudgiver bruger en CMS-skabelon, der leveres med en robots.txt indeholdende User-agent: GPTBot / Disallow: / og User-agent: ClaudeBot / Disallow: /. Redaktionsteamet er ikke klar over, at disse linjer findes. Sitet har høj E-E-A-T, dagligt opdaterede artikler og godt schema, men på 18 måneder har ChatGPT og Claude aldrig citeret en eneste artikel. Serverlogfiler bekræfter, at GPTBot rammer /robots.txt med få timers mellemrum og går væk.

Hvorfor dette fejler: Disallow på rod-stien fortæller GPTBot og ClaudeBot, at de skal springe hele domænet over. Begge bots respekterer robots.txt, så hele den redaktionelle investering producerer nul AI-citater. Udgiveren kan ikke forstå, hvorfor konkurrenter med svagere indhold citeres dagligt — indtil nogen læser robots.txt.

Tilladt og sporet — fuld AI-synlighed gendannet

Udgiveren omskriver robots.txt til: User-agent: GPTBot / Allow: / / User-agent: OAI-SearchBot / Allow: / / User-agent: ChatGPT-User / Allow: / / User-agent: ClaudeBot / Allow: / / User-agent: PerplexityBot / Allow: / / Sitemap: https://news.example.com/sitemap.xml. Serverlogfiler stikprøvekontrolleres ugentligt for at bekræfte 200-svar og spore crawl-frekvens pr. bot. Inden for fire uger begynder ChatGPT-søgning at citere nylige artikler ved navn.

Hvorfor dette virker: Eksplicitte Allow-regler tilsidesætter eventuelle arvede skabelonstandarder og signalerer hensigt til hver AI-crawler. Listning af både trænings-bots (GPTBot, ClaudeBot) og søgetids-bots (OAI-SearchBot, ChatGPT-User) dækker både trænings-data-citater og live-svar-hentninger. Sitemap-linjen fortæller crawlere præcis, hvilke URL'er der skal prioriteres — så nye artikler vises i AI-svar inden for dage, ikke måneder.

Eksempel 2: E-commerce-brand bag en standard-WAF

WAF blokerer AI-bots stille — ingen robots.txt-problem, stadig usynlig

Et mellemstort e-commerce-brand på Cloudflare har en ren robots.txt, der tillader alle AI-bots. Men dets WAF har "Block AI bots" aktiveret i Super Bot Fight Mode og en brugerdefineret regel, der blokerer enhver user-agent indeholdende "bot", som ikke er Googlebot eller Bingbot. AI-crawlere modtager 403 Forbidden-svar på hver anmodning. Produktlister, købsguider og kategorisider kommer aldrig ind i AI-træningsdata eller live-søgeindekser.

Hvorfor dette fejler: Robots.txt er ærlig, men WAF'en udføres først. Cloudflares dokumentation angiver eksplicit, at AI-bot-blokeringsreglen har forrang over Allow Verified Bots — så selv AI-crawlere, Cloudflare har verificeret efter IP, bliver blokeret. Brandet ser nul ChatGPT- eller Perplexity-henvisninger, selvom dets indholdskvalitetsscorer er fremragende.

Selektiv WAF-whitelist — bloker scrapere, tillad navngivne AI-bots

Brandet deaktiverer den generelle "Block AI bots"-knap og opretter i stedet en Cloudflare AI Crawl Control allow-liste for GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, PerplexityBot og Google-Extended. Den brugerdefinerede WAF-regel omskrives til at udfordre uverificerede bots, mens verificerede AI-crawlere lukkes igennem. En månedlig gennemgang tjekker AI-crawl-logfiler, og enhver ny kommercielt relevant AI-bot tilføjes til allow-listen inden for 7 dage.

Hvorfor dette virker: Verificerede AI-bots ankommer fra offentliggjorte IP-områder, som Cloudflare autentificerer — allow-listen stoler på bot-identiteten, ikke kun user-agent-strengen (som scrapere kan forfalske). Brandet beholder sin beskyttelse mod ondsindede scrapere, mens det åbner døren for hver AI-søgemaskine, der kan drive køb. Inden for et kvartal begynder brandet at dukke op i ChatGPT-shoppingsvar for køb-orienterede forespørgsler.

Eksempel 3: Abonnementsudgiver med hård betalingsmur

Hård betalingsmur — AI ser en login-væg, ikke artiklen

En B2B-abonnementspublikation viser en 50-ords teaser efterfulgt af en login-modal i fuld side, leveret via JavaScript ved sideindlæsning. AI-crawlere inklusive GPTBot udfører ikke JavaScript, så de ser teaseren plus modal-HTML'en. Artikler trænes aldrig på, og ved søgetid har AI-søgemaskiner intet at citere — de falder tilbage til konkurrentkilder, der skriver om de samme emner åbent. Abonnementsvækst aftager, fordi brandet aldrig dukker op i AI-svar, hvor beslutningstagere undersøger leverandører.

Hvorfor dette fejler: AI-crawlere henter kun rå HTML. En JavaScript-injiceret betalingsmur er usynlig for mennesker (den indlæses bagefter), men blokerer AI fuldstændigt — de ser kun den 50-ords teaser. Der er ingen vej for udgiverens ekspertise til at komme ind i AI-træningsdata eller live-svar-pipelines, selvom den redaktionelle kvalitet er den højeste i branchen.

Hybrid model — AI-læsbar oversigt plus betalingsmur

Udgiveren introducerer en 250-ords "executive summary" gengivet i indledende HTML for hver artikel: hovedkonklusionen, datapunktet, anbefalingen og kilden. Den fulde dybdegående analyse forbliver bag betalingsmuren. Robots.txt tillader GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot og Google-Extended. Schema.org Article-markup med paywalledContent-annotation fortæller crawlere, hvilke sektioner der kræver abonnement, mens oversigtssektionen er frit indekserbar.

Hvorfor dette virker: AI-crawlere har nu substantielt, citerbart indhold for hver artikel — oversigten er lang nok til at være et komplet svar (ifølge Answer Completeness-forskningen er 200-ords selvstændige passager ideelle). Når en beslutningstager spørger ChatGPT "hvem er den førende kilde på X", citeres udgiverens oversigt, og klikket til den fulde rapport konverterer. Betalingsmuren beskytter abonnementsindtægter, mens AI bliver en toppen-af-tragten-kanal til kundeerhvervelse.

Sådan forbedrer du din AI-bot-adgang-score

Gør IKKE dette

✗Brug User-agent: * / Disallow: / eller nogen global blokering i robots.txt — dette dræber AI-adgang for hver crawler i én linje, inklusive dem du ønsker
✗Lade standard-WAF "Block AI bots"-knapper være aktiveret uden at gennemgå dem — Cloudflare og andre CDN'er leveres i stigende grad med AI-blokering aktiveret som standard, herunder for verificerede bots
✗Blokere efter user-agent-streng alene — scrapere forfalsker "GPTBot" let, og legitime bots kan imiteres; verificer efter IP-område eller brug CDN-verificerede bot-lister i stedet
✗Låse primært indhold bag JavaScript-renderede komponenter eller single-page-app-ruter — GPTBot, ClaudeBot og PerplexityBot udfører ikke JavaScript og vil kun se den indledende HTML-skal
✗Springe serverlog-overvågning af AI-bots over — uden ugentlige tjek af GPTBot, ClaudeBot og PerplexityBot-hits kan utilsigtede blokeringer fortsætte i månedsvis, før nogen bemærker den manglende AI-trafik

Gør dette i stedet

✓Tilføj eksplicitte User-agent: GPTBot / Allow: /, plus tilsvarende for ClaudeBot, PerplexityBot, OAI-SearchBot, ChatGPT-User, Google-Extended og Applebot-Extended i robots.txt
✓Whitelist verificerede AI-bots i din WAF ved hjælp af deres offentliggjorte IP-områder — Cloudflare AI Crawl Control, Vercel AI Bot Manager og Akamai eksponerer alle dette
✓Server-side render eller pre-render de første 200-500 ord på hver vigtig side, så AI-crawlere ser substantielt indhold i det indledende HTML-svar
✓Stikprøvekontroller serverlogfiler ugentligt for GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot og Google-Extended-hits — bekræft 200-svar, gennemsnitlig svartid under 2 sekunder og stabil crawl-frekvens
✓Hvis du har en betalingsmur, eksponer en 200-300 ords executive summary i HTML og brug Schema.org paywalledContent til at markere de beskyttede sektioner — bevarer indtægter, mens AI-citationsberettigelse bevares

Hurtige tips til AI-bot-adgang

•Brug altid eksplicitte Allow-regler pr. AI-bot — "User-agent: * / Allow: /" virker tilladende, men signalerer ikke hensigt, og mange WAF'er tilsidesætter det
•Tjek dit CDN-dashboard før robots.txt — Cloudflares ændring i juli 2025 blokerer AI-crawlere som standard for nye kunder, uanset hvad din robots.txt siger
•Tillad både trænings-bots (GPTBot, ClaudeBot) og søgetids-bots (OAI-SearchBot, ChatGPT-User, Claude-SearchBot, PerplexityBot) — de tjener forskellige dele af AI-svar-pipelinen
•Stol ikke på llms.txt som din primære adgangsmekanisme — pr. sen 2025 læser ingen større AI-crawler den; robots.txt forbliver den eneste universelt respekterede standard
•Render kritisk indhold server-side eller via SSG — kun Googlebot udfører pålideligt JavaScript blandt større crawlere, så JS-only-indhold er usynligt for GPTBot, ClaudeBot og PerplexityBot
•Stikprøvekontroller dine adgangslogfiler ugentligt for AI-user-agent-strengene — et pludseligt fald til nul er det tidligste signal om en utilsigtet blokering fra en CDN-opdatering eller WAF-regelændring

Ofte stillede spørgsmål

Bør jeg blokere GPTBot for at beskytte mit indhold mod AI-træning?

For de fleste sites, nej. Originality.ai fandt, at 35,7 % af de top 1.000 sites blokerer GPTBot, men en Hack/Hackers-analyse viste, at store udgivere, der blokerede AI-bots, efterfølgende mistede ca. 23 % af deres trafik. Medmindre du har en aftale om licensering på flere millioner dollars (NYT-Amazon, News Corp-OpenAI), eller din forretningsmodel afhænger af lukket ekspertise, fjerner blokering din eneste vej ind i AI-søgeresultater — som i stigende grad er, hvor kunder begynder deres rejser. Standardindstillingen for ikke-udgivere bør være Allow.

Hvilken indvirkning har det at tillade AI-bots på min GEO-Score?

At tillade AI-bots er forudsætningen for hver anden GEO-metrik. Analysatoren behandler bot-adgang som en gating-faktor: hvis AI-crawlere ikke kan nå dine sider, bliver dine scores for citater, schema, indholdsstruktur og friskhed alle akademiske. Sites, der skifter fra at blokere til at tillade, ser typisk AI-drevet trafik dukke op inden for 2-6 uger, afhængigt af hvor ofte hver bot recrawler. Ændringen har ingen negativ SEO-effekt, fordi Googlebot og Google-Extended er uafhængige — at blokere den ene påvirker ikke den anden.

Hvad er forskellen mellem GPTBot, ChatGPT-User og OAI-SearchBot?

OpenAI bruger tre crawlere til forskellige formål. GPTBot crawler bredt for at indsamle træningsdata til fremtidige modelversioner. OAI-SearchBot indekserer sider til ChatGPT's indbyggede søgefunktion, der viser resultater i realtid under samtaler. ChatGPT-User udløses, når en individuel ChatGPT-bruger beder modellen om at hente en specifik URL eller browse et emne. For at være fuldt synlig i OpenAI's økosystem bør du tillade alle tre — at blokere GPTBot stopper kun trænings-data-inklusion, ikke live-citater.

Påvirker blokering af Google-Extended mine Google Search-placeringer?

Nej. Googles officielle dokumentation angiver, at Google-Extended er et separat token fra Googlebot, og at blokering af det ikke har nogen indvirkning på søgeplaceringer, indeksering eller synlighed. Google-Extended kontrollerer kun, om dit indhold kan bruges til at træne Gemini og til at jorde Google AI Overviews-svar. Mange udgivere blokerer Google-Extended for at begrænse trænings-data-brug, mens de beholder fuld Search-tilstedeværelse — selvom dette også reducerer chancen for at blive citeret inde i AI Overviews.

Hvorfor crawler AI-bots mit site så meget uden at sende trafik tilbage?

Dette er crawl-til-henvisning-gabet. Cloudflares 2025-analyse fandt, at Anthropics forhold toppede nær 500.000:1 (500.000 sidehentninger pr. menneskelig henvisning), før det stabiliserede sig på 25.000:1 til 100.000:1, mens OpenAI's GPTBot-forhold lå omkring 1.200-3.700:1. Ubalancen er reel, men alternativet — blokering — eliminerer den lille, men voksende henvisningsstrøm fuldstændigt og fjerner dig fra de svar, brugere ser, selv når disse svar ikke fører til klik. For de fleste sites er det bedste svar at tillade adgang og samtidig sikre crawl-effektivitet (hurtige svar, præcise sitemaps) i stedet for at blokere.

Bør jeg implementere en llms.txt-fil sammen med robots.txt?

Ikke som erstatning for robots.txt. llms.txt-forslaget fra Jeremy Howard (september 2024) er en interessant standard for at guide AI til værdifulde ressourcer, men pr. sen 2025 har ingen større AI-crawler — OpenAI, Anthropic, Google, Perplexity — bekræftet, at de læser eller følger llms.txt. En audit af serverlogfiler på tværs af hundredvis af sites i oktober 2025 fandt nul LLM-crawlere, der anmodede om llms.txt-filer. Det koster lidt at tilføje den som en fremtidssikringsforanstaltning, men hver adgangsbeslutning i dag afhænger stadig af robots.txt, server-responskoder og CDN/WAF-konfiguration.

Relaterede metrikker at udforske

Sidehastighed
Langsomme svar får AI-crawlere til at udløbe — sidehastighed forvandler adgang fra "tilladt" til "faktisk crawlbar"
Sitemap og opdagelighed
Når bots kan tilgå dit site, afgør dit sitemap og din linkstruktur, hvilke sider de faktisk finder
Schema-validator
Schema-markup hjælper AI-crawlere med at fortolke tilgængelige sider — herunder paywalledContent-annoteringer for hybride modeller
AI-optimering
Den paraply-score, der kombinerer bot-adgang, schema, struktur og friskhed til ét AI-parathedssignal

AI-bot-adgang