AI-bot-tilgang: 5,6 millioner nettsteder blokkerer GPTBot

Hva er AI-bot-tilgang?

AI-bot-tilgang måler om AI-crawlere — GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot, ChatGPT-User og andre — faktisk kan nå og lese sidene dine. Sjekken ser på fire lag: robots.txt-direktiver, serverresponskoder, IP-basert blokkering fra CDN-er og WAF-er, og om innhold er låst bak JavaScript eller betalingsmurer. Hvert lag kan stille drepe AI-synlighet, og mange nettsteder er blokkert på ett eller flere uten å vite det.

Denne målingen er portvakten for hele GEO-Score. En perfekt 100/100 på schema, siteringer, ferskhet og struktur leverer nøyaktig null AI-siteringer hvis en enkelt Disallow-linje i robots.txt eller en standard WAF-regel snur crawlere bort. Cloudflare rapporterte i juli 2025 at nettverket nå blokkerer AI-crawlere som standard for nye kunder — noe som betyr at en betydelig del av nettet ble mørkt for AI over natten.

Hvorfor AI-bot-tilgang er viktig

AI-søk er nå en målbar andel av total nettrafikk, men det er også den mest skjøre trafikkilden — én feilkonfigurert regel kan slette tilstedeværelsen din fra ChatGPT, Claude og Perplexity samtidig. Tre krefter forklarer hvorfor bot-tilgang fortjener oppmerksomhet før noe annet GEO-arbeid.

Bot-tilgang er en binær portvakt

AI-crawlere indekserer ikke et blokkert nettsted delvis — de hopper over det helt. Hvis GPTBot, ClaudeBot eller PerplexityBot mottar en 403, en robots.txt Disallow eller en WAF-utfordring, behandles siden som ikke-eksisterende for AI-svar. Det finnes ingen "redusert synlighet"-utfall: det er full siteringskvalifisering eller ingenting.

Mest blokkering er utilsiktet

Originality.ai fant at GPTBot nå er blokkert av 35,7 % av de topp 1 000 nettstedene, men intervjuer med eiere viser at mange av disse blokkene var arvet fra standard WAF-regelsett, kopier-lim robots.txt-maler eller CDN bot-fight-modus som klassifiserer GPTBot som en generisk skraper. Få av disse eierne hadde til hensikt å blokkere AI; de glemte rett og slett å tillate det.

AI-crawlere er aggressive — men selektive

Cloudflare rapporterte at GPTBot vokste 305 % i rå forespørsler mellom mai 2024 og mai 2025, mens PerplexityBot vokste 157 490 % fra et lite utgangspunkt. Det volumet kommer med et budsjett: bots prioriterer nettsteder som svarer raskt, returnerer 200-er og leverer innhold i den initiale HTML-en. Nettsteder som intermittent gir 5xx, skjuler innhold bak JavaScript eller hastighetsbegrenser AI-bots ser at siteringer faller selv uten en eksplisitt blokk.

Hva forskningen sier

GPTBot increased its share of all crawler traffic from 2.2% to 7.7%, with a 305% rise in raw requests over 12 months — jumping from rank #9 to rank #3 among all web crawlers. PerplexityBot showed the most explosive growth at 157,490% from a minimal baseline. Yet only 14% of analyzed domains had any specific robots.txt directives targeting AI bots — leaving the other 86% silently allowing or blocking AI traffic by accident.
João Tomé, Jorge Pacheco, Carlos Azevedo — From Googlebot to GPTBot: Who's Crawling Your Site in 2025, Cloudflare Blog, July 2025 — analysis of 3,816 top domains

GPTBot is now blocked by 35.7% of the top 1,000 websites, up from just 5% when it was first introduced in August 2023. The percentage of sites blocking GPTBot was increasing by approximately 5% per week in the early stages following the bot's announcement. Many of these blocks were inherited from default templates and CDN rules rather than deliberate policy decisions.
Originality.ai — GPTBot Blocking Tracker, August 2024 update — quarterly study of the Quantcast top 1,000 websites since GPTBot launch

Anthropic's crawl-to-referral ratio peaked near 500,000:1 early in 2025 before settling between 25,000:1 and 100,000:1, while OpenAI's GPTBot ratio spiked to roughly 3,700:1 in March 2025. This imbalance — bots taking far more than they return in human visits — is the main reason publishers are tempted to block, but for any site that is not a major news brand, blocking removes the only path to AI search citations entirely.
Cloudflare Radar — The crawl-to-click gap: AI bots, training, and referrals, 2025 — multi-month analysis of crawler-to-human-referral ratios across the Cloudflare network

3 virkelige bot-tilgangsscenarioer

Disse tre mønstrene viser hvordan det samme innholdet kan være usynlig eller fullt sitérbart for AI avhengig av noen få konfigurasjonslinjer. Hver "dårlig" sak er et virkelig mønster observert i revisjoner — "god"-versjonen er minimumsfiksen som holder innhold beskyttet der det skal være, mens den slipper AI-bots gjennom overalt ellers.

Eksempel 1: Regional nyhetsside med standard robots.txt

Blokkert — usynlig for ChatGPT og Claude

En regional nyhetspublisist bruker en CMS-mal som leveres med en robots.txt som inneholder User-agent: GPTBot / Disallow: / og User-agent: ClaudeBot / Disallow: /. Redaksjonen er ikke klar over at disse linjene eksisterer. Nettstedet har høy E-E-A-T, daglig oppdaterte artikler og godt schema, men på 18 måneder har ChatGPT og Claude aldri sitert en eneste artikkel. Serverlogger bekrefter at GPTBot treffer /robots.txt hver par time og går bort.

Hvorfor dette feiler: Disallow på rot-banen forteller GPTBot og ClaudeBot å hoppe over hele domenet. Begge bots respekterer robots.txt, så all den redaksjonelle investeringen produserer null AI-siteringer. Publisisten kan ikke forstå hvorfor konkurrenter med svakere innhold blir sitert daglig — helt til noen leser robots.txt-filen.

Tillatt og sporet — full AI-synlighet gjenopprettet

Publisisten skriver om robots.txt til: User-agent: GPTBot / Allow: / / User-agent: OAI-SearchBot / Allow: / / User-agent: ChatGPT-User / Allow: / / User-agent: ClaudeBot / Allow: / / User-agent: PerplexityBot / Allow: / / Sitemap: https://news.example.com/sitemap.xml. Serverlogger samples ukentlig for å bekrefte 200-svar og spore crawl-frekvens per bot. Innen fire uker begynner ChatGPT search å sitere nylige artikler ved navn.

Hvorfor dette fungerer: Eksplisitte Allow-regler overstyrer eventuelle arvede malstandarder og signaliserer intensjon til hver AI-crawler. Å liste opp både treningsbots (GPTBot, ClaudeBot) og søke-tids-bots (OAI-SearchBot, ChatGPT-User) dekker både treningsdata-siteringer og live-svarhentinger. Sitemap-linjen forteller crawlere nøyaktig hvilke URL-er som skal prioriteres — så nye artikler dukker opp i AI-svar innen dager, ikke måneder.

Eksempel 2: E-handelsmerke bak en standard WAF

WAF blokkerer AI-bots stille — ikke noe robots.txt-problem, fortsatt usynlig

En mellomstor e-handelsmerkevare på Cloudflare har en ren robots.txt som tillater alle AI-bots. Men WAF-en har "Block AI bots" aktivert i Super Bot Fight Mode og en tilpasset regel som blokkerer enhver user-agent som inneholder "bot" som ikke er Googlebot eller Bingbot. AI-crawlere mottar 403 Forbidden-svar på hver forespørsel. Produktoppføringer, kjøpsguider og kategorisider kommer aldri inn i AI-treningsdata eller live-søkindekser.

Hvorfor dette feiler: Robots.txt er ærlig, men WAF-en kjøres først. Cloudflares dokumentasjon sier eksplisitt at AI-bot-blokkeringsregelen har forrang over Allow Verified Bots — så selv AI-crawlere som Cloudflare har verifisert via IP blir blokkert. Merket ser null ChatGPT- eller Perplexity-henvisninger selv om innholdskvaliteten scorer utmerket.

Selektiv WAF-hviteliste — blokker skrapere, tillat navngitte AI-bots

Merket deaktiverer den generelle "Block AI bots"-veksleren og oppretter i stedet en Cloudflare AI Crawl Control allow-list for GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, PerplexityBot og Google-Extended. WAF-tilpasset regel skrives om for å utfordre uverifiserte bots samtidig som den slipper verifiserte AI-crawlere gjennom. En månedlig gjennomgang sjekker AI-crawl-logger, og enhver ny kommersielt relevant AI-bot legges til i allow-listen innen 7 dager.

Hvorfor dette fungerer: Verifiserte AI-bots ankommer fra publiserte IP-områder som Cloudflare autentiserer — allow-listen stoler på bot-identiteten, ikke bare på user-agent-strengen (som skrapere kan forfalske). Merket beholder beskyttelsen mot ondsinnede skrapere samtidig som det åpner døren for hver AI-søkemotor som kan drive kjøp. Innen et kvartal begynner merket å vises i ChatGPT-handlesvar for kjøpsintensjons-spørringer.

Eksempel 3: Abonnementsutgiver med hard betalingsmur

Hard betalingsmur — AI ser en innloggingsvegg, ikke artikkelen

En B2B-abonnementspublikasjon viser en 50-ords teaser og deretter en innloggingsmodal i full skjerm, levert via JavaScript ved sidelasting. AI-crawlere inkludert GPTBot kjører ikke JavaScript, så de ser teaseren pluss modal-HTML-en. Artikler trenes aldri på, og ved søketid har AI-søkemotorer ingenting å sitere — de faller tilbake på konkurrentkilder som skriver om de samme temaene åpent. Abonnementsveksten avtar fordi merket aldri vises i AI-svar der beslutningstakere undersøker leverandører.

Hvorfor dette feiler: AI-crawlere henter kun rå HTML. En JavaScript-injisert betalingsmur er usynlig for mennesker (den lastes etter), men blokkerer AI fullstendig — de ser bare 50-ords-teaseren. Det er ingen vei for utgiverens ekspertise inn i AI-treningsdata eller live-svar-pipelines, selv om den redaksjonelle kvaliteten er den høyeste i bransjen.

Hybridmodell — AI-lesbart sammendrag pluss betalingsmur

Utgiveren introduserer et 250-ords "executive summary" gjengitt i den initiale HTML-en for hver artikkel: hovedfunnet, datapunktet, anbefalingen og kilden. Hele dybdeanalysen forblir bak betalingsmur. Robots.txt tillater GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot og Google-Extended. Schema.org Article-markering med paywalledContent-annotasjon forteller crawlere hvilke seksjoner som krever abonnement, mens sammendrag-seksjonen er fritt indekserbar.

Hvorfor dette fungerer: AI-crawlere har nå substansielt, sitérbart innhold for hver artikkel — sammendraget er langt nok til å være et komplett svar (ifølge Answer Completeness-forskningen er 200-ords frittstående passasjer ideelle). Når en beslutningstaker spør ChatGPT "hvem er den ledende kilden om X", blir utgiverens sammendrag sitert og full-rapport-klikket konverterer. Betalingsmuren beskytter abonnementsinntekter mens AI blir en topp-av-trakten anskaffelseskanal.

Hvordan forbedre AI-bot-tilgangsscoren din

IKKE gjør dette

✗Bruk User-agent: * / Disallow: / eller en hvilken som helst global blokk i robots.txt — dette dreper AI-tilgang for hver crawler på én linje, inkludert de du ønsker
✗La standard WAF "Block AI bots"-vekslere være aktivert uten gjennomgang — Cloudflare og andre CDN-er leveres i økende grad med AI-blokkering aktivert som standard, inkludert for verifiserte bots
✗Blokker basert på user-agent-streng alene — skrapere forfalsker "GPTBot" enkelt, og legitime bots kan etterlignes; verifiser etter IP-område eller bruk CDN-verifiserte bot-lister i stedet
✗Lås primært innhold bak JavaScript-rendrede komponenter eller single-page-app-ruter — GPTBot, ClaudeBot og PerplexityBot kjører ikke JavaScript og vil bare se det initielle HTML-skallet
✗Hopp over server-logg-overvåking av AI-bots — uten ukentlige sjekker av GPTBot-, ClaudeBot- og PerplexityBot-treff, kan utilsiktede blokkeringer vedvare i måneder før noen merker den manglende AI-trafikken

Gjør dette i stedet

✓Legg til eksplisitt User-agent: GPTBot / Allow: /, pluss tilsvarende for ClaudeBot, PerplexityBot, OAI-SearchBot, ChatGPT-User, Google-Extended og Applebot-Extended i robots.txt
✓Hvitliste verifiserte AI-bots i WAF-en din ved hjelp av deres publiserte IP-områder — Cloudflare AI Crawl Control, Vercel AI Bot Manager og Akamai eksponerer alle dette
✓Server-side render eller pre-render de første 200-500 ordene på hver viktig side slik at AI-crawlere ser substansielt innhold i den initiale HTML-responsen
✓Sample serverlogger ukentlig for treff av GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot og Google-Extended — bekreft 200-svar, gjennomsnittlig responstid under 2 sekunder og jevn crawl-frekvens
✓Hvis du har en betalingsmur, eksponer et 200-300 ords executive summary i HTML og bruk Schema.org paywalledContent for å markere de beskyttede seksjonene — bevarer inntekter mens du beholder AI-siteringskvalifikasjon

Raske tips for AI-bot-tilgang

•Bruk alltid eksplisitte Allow-regler per AI-bot — "User-agent: * / Allow: /" virker tillatende, men signaliserer ikke intensjon, og mange WAF-er overstyrer det
•Sjekk CDN-dashbordet ditt før robots.txt — Cloudflares juli 2025-endring blokkerer AI-crawlere som standard for nye kunder, uavhengig av hva robots.txt sier
•Tillat både treningsbots (GPTBot, ClaudeBot) og søke-tids-bots (OAI-SearchBot, ChatGPT-User, Claude-SearchBot, PerplexityBot) — de tjener forskjellige deler av AI-svar-pipelinen
•Ikke stol på llms.txt som din primære tilgangsmekanisme — fra slutten av 2025 leser ingen større AI-crawlere den; robots.txt forblir den eneste universelt anerkjente standarden
•Render kritisk innhold server-side eller via SSG — bare Googlebot kjører pålitelig JavaScript blant større crawlere, så JS-only-innhold er usynlig for GPTBot, ClaudeBot og PerplexityBot
•Sample tilgangsloggene dine ukentlig for AI-user-agent-strenger — et plutselig fall til null er det tidligste signalet på en utilsiktet blokkering fra en CDN-oppdatering eller WAF-regelendring

Ofte stilte spørsmål

Bør jeg blokkere GPTBot for å beskytte innholdet mitt mot AI-trening?

For de fleste nettsteder, nei. Originality.ai fant at 35,7 % av topp 1 000-nettstedene blokkerer GPTBot, men en Hack/Hackers-analyse viste at store utgivere som blokkerte AI-bots deretter mistet omtrent 23 % av trafikken. Med mindre du har en flermillions-licensavtale (NYT-Amazon, News Corp-OpenAI) eller forretningsmodellen din avhenger av lukket ekspertise, fjerner blokkering den eneste veien din inn i AI-søkeresultater — som i økende grad er der kunder starter reisene sine. Standarden for ikke-utgivere bør være Allow.

Hva er virkningen av å tillate AI-bots på GEO-Score-en min?

Å tillate AI-bots er forutsetningen for hver annen GEO-måling. Analysatoren behandler bot-tilgang som en gating-faktor: hvis AI-crawlere ikke kan nå sidene dine, blir scorene dine for siteringer, schema, innholdsstruktur og ferskhet alle akademiske. Nettsteder som bytter fra blokkering til tillatelse, ser typisk AI-drevet trafikk dukke opp innen 2-6 uker, avhengig av hvor ofte hver bot rekrawler. Endringen har ingen negativ SEO-innvirkning fordi Googlebot og Google-Extended er uavhengige — å blokkere én påvirker ikke den andre.

Hva er forskjellen mellom GPTBot, ChatGPT-User og OAI-SearchBot?

OpenAI bruker tre crawlere for distinkte formål. GPTBot crawler bredt for å samle treningsdata for fremtidige modellversjoner. OAI-SearchBot indekserer sider for ChatGPTs innebygde søkefunksjon, som henter resultater i sanntid under samtaler. ChatGPT-User utløses når en individuell ChatGPT-bruker ber modellen om å hente en spesifikk URL eller bla gjennom et tema. For å være fullt synlig i OpenAIs økosystem bør du tillate alle tre — å blokkere GPTBot stopper bare treningsdata-inkludering, ikke live-siteringer.

Påvirker blokkering av Google-Extended Google Search-rangeringen min?

Nei. Googles offisielle dokumentasjon sier at Google-Extended er et separat token fra Googlebot, og blokkering av det har ingen innvirkning på søkerangeringer, indeksering eller synlighet. Google-Extended kontrollerer bare om innholdet ditt kan brukes til å trene Gemini og til å forankre Google AI Overviews-svar. Mange utgivere blokkerer Google-Extended for å begrense bruk av treningsdata samtidig som de beholder full Search-tilstedeværelse — selv om dette også reduserer sjansen for å bli sitert inne i AI Overviews.

Hvorfor crawler AI-bots nettstedet mitt så mye uten å sende trafikk tilbake?

Dette er crawl-til-henvisning-gapet. Cloudflares 2025-analyse fant at Anthropics ratio toppet seg nær 500 000:1 (500 000 sidehentinger per menneskelig henvisning) før den slo seg ned på 25 000:1 til 100 000:1, mens OpenAIs GPTBot-ratio lå rundt 1 200-3 700:1. Ubalansen er reell, men alternativet — blokkering — eliminerer den lille, men voksende henvisningsstrømmen fullstendig og fjerner deg fra svarene brukerne ser, selv når de svarene ikke klikker gjennom. For de fleste nettsteder er den beste responsen å tillate tilgang samtidig som man sikrer crawl-effektivitet (raske svar, nøyaktige sitemaps) i stedet for å blokkere.

Bør jeg implementere en llms.txt-fil ved siden av robots.txt?

Ikke som erstatning for robots.txt. llms.txt-forslaget fra Jeremy Howard (september 2024) er en interessant standard for å veilede AI til verdifulle ressurser, men fra slutten av 2025 har ingen større AI-crawler — OpenAI, Anthropic, Google, Perplexity — bekreftet at de leser eller følger llms.txt. En revisjon av serverlogger på tvers av hundrevis av nettsteder i oktober 2025 fant null LLM-crawlere som forespurte llms.txt-filer. Det koster lite å legge til som et fremtidssikringstiltak, men hver tilgangsbeslutning i dag avhenger fortsatt av robots.txt, serverresponskoder og CDN/WAF-konfigurasjon.

Relaterte målinger å utforske

Sidehastighet
Trege svar fører til at AI-crawlere får tidsavbrudd — sidehastighet gjør tilgang fra "tillatt" til "faktisk crawlbar"
Sitemap og oppdagbarhet
Når bots kan få tilgang til nettstedet ditt, bestemmer sitemap-en og lenkestrukturen din hvilke sider de faktisk finner
Schema-validator
Schema-markering hjelper AI-crawlere med å tolke tilgjengelige sider — inkludert paywalledContent-annotasjoner for hybridmodeller
AI-optimalisering
Paraply-scoren som kombinerer bot-tilgang, schema, struktur og ferskhet til ett enkelt AI-beredskapssignal

AI-bot-tilgang