AI-bot-åtkomst: 5,6 miljoner sajter blockerar GPTBot

Vad är AI-bot-åtkomst?

AI-bot-åtkomst mäter om AI-crawlers — GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot, ChatGPT-User med flera — faktiskt kan nå och läsa dina sidor. Kontrollen tittar på fyra lager: robots.txt-direktiv, serverns svarskoder, IP-baserad blockering från CDN:er och WAF:er, och om innehållet är låst bakom JavaScript eller betalväggar. Varje lager kan tyst döda AI-synligheten, och många sajter är blockerade på ett eller flera utan att inse det.

Detta mätvärde är grindvakten för hela GEO-Score. En perfekt 100/100 på schema, citeringar, färskhet och struktur ger exakt noll AI-citeringar om en enda Disallow-rad i robots.txt eller en standard-WAF-regel avvisar crawlers. Cloudflare rapporterade i juli 2025 att deras nätverk nu blockerar AI-crawlers som standard för nya kunder — vilket innebär att en betydande del av webben blev mörklagd för AI över en natt.

Varför AI-bot-åtkomst är viktigt

AI-sökning är nu en mätbar andel av den totala webbtrafiken, men det är också den mest sköra trafikkällan — en felaktigt konfigurerad regel kan radera din närvaro i ChatGPT, Claude och Perplexity samtidigt. Tre krafter förklarar varför bot-åtkomst förtjänar uppmärksamhet före något annat GEO-arbete.

Bot-åtkomst är en binär grindvakt

AI-crawlers indexerar inte en blockerad sajt delvis — de hoppar över den helt. Om GPTBot, ClaudeBot eller PerplexityBot får ett 403, en robots.txt Disallow eller en WAF-utmaning behandlas sidan som obefintlig för AI-svar. Det finns inget "reducerad synlighet"-utfall: det är full citeringsberättigande eller inget alls.

Mest blockering är oavsiktlig

Originality.ai fann att GPTBot nu blockeras av 35,7 % av de 1 000 främsta webbplatserna, men intervjuer med sajtägare visar att många av dessa blockeringar ärvdes från standardiserade WAF-regelset, kopierade robots.txt-mallar eller CDN-bot-fight-lägen som klassificerar GPTBot som en allmän skrapare. Få av dessa ägare avsåg att blockera AI; de glömde helt enkelt att tillåta det.

AI-crawlers är aggressiva — men selektiva

Cloudflare rapporterade att GPTBot växte 305 % i råa förfrågningar mellan maj 2024 och maj 2025, medan PerplexityBot växte 157 490 % från en liten bas. Den volymen kommer med en budget: bottar prioriterar sajter som svarar snabbt, returnerar 200:or och levererar innehåll i den initiala HTML:en. Sajter som intermittent svarar 5xx, döljer innehåll bakom JavaScript eller hastighetsbegränsar AI-bottar ser citeringar minska även utan en uttrycklig blockering.

Vad forskningen säger

GPTBot increased its share of all crawler traffic from 2.2% to 7.7%, with a 305% rise in raw requests over 12 months — jumping from rank #9 to rank #3 among all web crawlers. PerplexityBot showed the most explosive growth at 157,490% from a minimal baseline. Yet only 14% of analyzed domains had any specific robots.txt directives targeting AI bots — leaving the other 86% silently allowing or blocking AI traffic by accident.
João Tomé, Jorge Pacheco, Carlos Azevedo — From Googlebot to GPTBot: Who's Crawling Your Site in 2025, Cloudflare Blog, July 2025 — analysis of 3,816 top domains

GPTBot is now blocked by 35.7% of the top 1,000 websites, up from just 5% when it was first introduced in August 2023. The percentage of sites blocking GPTBot was increasing by approximately 5% per week in the early stages following the bot's announcement. Many of these blocks were inherited from default templates and CDN rules rather than deliberate policy decisions.
Originality.ai — GPTBot Blocking Tracker, August 2024 update — quarterly study of the Quantcast top 1,000 websites since GPTBot launch

Anthropic's crawl-to-referral ratio peaked near 500,000:1 early in 2025 before settling between 25,000:1 and 100,000:1, while OpenAI's GPTBot ratio spiked to roughly 3,700:1 in March 2025. This imbalance — bots taking far more than they return in human visits — is the main reason publishers are tempted to block, but for any site that is not a major news brand, blocking removes the only path to AI search citations entirely.
Cloudflare Radar — The crawl-to-click gap: AI bots, training, and referrals, 2025 — multi-month analysis of crawler-to-human-referral ratios across the Cloudflare network

3 verkliga scenarier för bot-åtkomst

Dessa tre mönster visar hur samma innehåll kan vara osynligt eller fullt citerbart för AI beroende på några konfigurationsrader. Varje "dåligt" fall är ett verkligt mönster observerat i revisioner — den "bra" versionen är minimifixet som håller innehållet skyddat där det ska vara samtidigt som AI-bottar släpps igenom överallt annat.

Exempel 1: Regional nyhetssajt med standard-robots.txt

Blockerad — osynlig för ChatGPT och Claude

En regional nyhetsutgivare använder en CMS-mall som levereras med en robots.txt som innehåller User-agent: GPTBot / Disallow: / och User-agent: ClaudeBot / Disallow: /. Redaktionen är inte medveten om att dessa rader existerar. Sajten har hög E-E-A-T, dagligen uppdaterade artiklar och bra schema, men under 18 månader har ChatGPT och Claude aldrig citerat en enda artikel. Serverloggar bekräftar att GPTBot träffar /robots.txt med några timmars mellanrum och går iväg.

Varför detta misslyckas: Disallow på rotsökvägen säger till GPTBot och ClaudeBot att hoppa över hela domänen. Båda bottarna respekterar robots.txt, så all redaktionell investering ger noll AI-citeringar. Utgivaren förstår inte varför konkurrenter med svagare innehåll citeras dagligen — tills någon läser robots.txt.

Tillåten och spårad — full AI-synlighet återställd

Utgivaren skriver om robots.txt till: User-agent: GPTBot / Allow: / / User-agent: OAI-SearchBot / Allow: / / User-agent: ChatGPT-User / Allow: / / User-agent: ClaudeBot / Allow: / / User-agent: PerplexityBot / Allow: / / Sitemap: https://news.example.com/sitemap.xml. Serverloggar samplas veckovis för att bekräfta 200-svar och spåra crawl-frekvens per bot. Inom fyra veckor börjar ChatGPT-sök citera nya artiklar med namn.

Varför detta fungerar: Explicita Allow-regler åsidosätter alla ärvda mall-standarder och signalerar avsikt till varje AI-crawler. Att lista både träningsbottar (GPTBot, ClaudeBot) och söktidsbottar (OAI-SearchBot, ChatGPT-User) täcker både träningsdata-citeringar och live-svarshämtningar. Sitemap-raden talar om för crawlers exakt vilka URL:er som ska prioriteras — så nya artiklar dyker upp i AI-svar inom dagar, inte månader.

Exempel 2: E-handelsvarumärke bakom en standard-WAF

WAF blockerar AI-bottar tyst — inget robots.txt-problem, ändå osynlig

Ett medelstort e-handelsvarumärke på Cloudflare har en ren robots.txt som tillåter alla AI-bottar. Men dess WAF har "Block AI bots" aktiverat i Super Bot Fight Mode och en anpassad regel som blockerar varje user-agent som innehåller "bot" som inte är Googlebot eller Bingbot. AI-crawlers får 403 Forbidden-svar på varje förfrågan. Produktlistor, köpguider och kategorisidor kommer aldrig in i AI-träningsdata eller live-sökindex.

Varför detta misslyckas: Robots.txt är ärlig, men WAF:en körs först. Cloudflares dokumentation anger uttryckligen att AI-bot-blockeringsregeln har företräde över Allow Verified Bots — så även AI-crawlers som Cloudflare har verifierat via IP blockeras. Varumärket ser noll ChatGPT- eller Perplexity-hänvisningar trots att deras innehållskvalitetspoäng är utmärkta.

Selektiv WAF-vitlista — blockera skrapare, tillåt namngivna AI-bottar

Varumärket inaktiverar den heltäckande "Block AI bots"-växeln och skapar istället en Cloudflare AI Crawl Control-tillåtlista för GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, PerplexityBot och Google-Extended. WAF:ens anpassade regel skrivs om för att utmana overifierade bottar samtidigt som verifierade AI-crawlers släpps igenom. En månatlig granskning kontrollerar AI-crawl-loggar, och varje ny kommersiellt relevant AI-bot läggs till i tillåtlistan inom 7 dagar.

Varför detta fungerar: Verifierade AI-bottar kommer från publicerade IP-intervall som Cloudflare autentiserar — tillåtlistan litar på bot-identiteten, inte bara user-agent-strängen (som skrapare kan förfalska). Varumärket behåller sitt skydd mot skadliga skrapare samtidigt som det öppnar dörren för varje AI-sökmotor som kan driva köp. Inom ett kvartal börjar varumärket dyka upp i ChatGPT-shoppingsvar för köpintenta sökningar.

Exempel 3: Prenumerationsutgivare med hård betalvägg

Hård betalvägg — AI ser en inloggningsvägg, inte artikeln

En B2B-prenumerationspublikation visar en 50-ords förhandstitt och sedan en helsides inloggningsmodal, levererad via JavaScript vid sidladdning. AI-crawlers inklusive GPTBot kör inte JavaScript, så de ser förhandstitten plus modal-HTML:en. Artiklar tränas aldrig på, och vid söktid har AI-sökmotorer inget att citera — de faller tillbaka på konkurrentkällor som skriver om samma ämnen öppet. Prenumerationstillväxten saktar ner eftersom varumärket aldrig dyker upp i AI-svar där beslutsfattare undersöker leverantörer.

Varför detta misslyckas: AI-crawlers hämtar bara rå HTML. En JavaScript-injicerad betalvägg är osynlig för människor (den laddas efteråt) men blockerar AI helt — de ser bara 50-ords förhandstitten. Det finns ingen väg för utgivarens expertis att komma in i AI-träningsdata eller live-svarspipelines, även om den redaktionella kvaliteten är högst i branschen.

Hybridmodell — AI-läsbar sammanfattning plus betalvägg

Utgivaren introducerar en 250-ords "executive summary" återgiven i initial HTML för varje artikel: nyckelresultatet, datapunkten, rekommendationen och källan. Den fullständiga djupanalysen förblir betalvägg. Robots.txt tillåter GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot och Google-Extended. Schema.org Article-markering med paywalledContent-annotering talar om för crawlers vilka avsnitt som kräver prenumeration, medan sammanfattningsavsnittet är fritt indexerbart.

Varför detta fungerar: AI-crawlers har nu substantiellt, citerbart innehåll för varje artikel — sammanfattningen är tillräckligt lång för att vara ett komplett svar (enligt Answer Completeness-forskningen är 200-ords fristående passager idealiska). När en beslutsfattare frågar ChatGPT "vem är den ledande källan om X" citeras utgivarens sammanfattning och fullrapport-klicket konverterar. Betalväggen skyddar prenumerationsintäkter samtidigt som AI blir en top-of-funnel-förvärvskanal.

Så förbättrar du din AI-bot-åtkomstpoäng

Gör INTE detta

✗Använd User-agent: * / Disallow: / eller någon global blockering i robots.txt — detta dödar AI-åtkomst för varje crawler i en rad, inklusive de du vill ha
✗Lämna standard-WAF "Block AI bots"-växlar aktiverade utan att granska — Cloudflare och andra CDN:er levererar i ökande grad med AI-blockering på som standard, inklusive för verifierade bottar
✗Blockera enbart efter user-agent-sträng — skrapare förfalskar "GPTBot" enkelt, och legitima bottar kan imiteras; verifiera istället via IP-intervall eller använd CDN-verifierade bot-listor
✗Lås primärt innehåll bakom JavaScript-renderade komponenter eller single-page-app-rutter — GPTBot, ClaudeBot och PerplexityBot kör inte JavaScript och kommer bara att se det initiala HTML-skalet
✗Hoppa över serverlogg-övervakning av AI-bottar — utan veckokontroller av GPTBot, ClaudeBot och PerplexityBot-träffar kan oavsiktliga blockeringar bestå i månader innan någon märker den saknade AI-trafiken

Gör detta istället

✓Lägg till explicit User-agent: GPTBot / Allow: /, plus motsvarande för ClaudeBot, PerplexityBot, OAI-SearchBot, ChatGPT-User, Google-Extended och Applebot-Extended i robots.txt
✓Vitlista verifierade AI-bottar i din WAF med deras publicerade IP-intervall — Cloudflare AI Crawl Control, Vercel AI Bot Manager och Akamai exponerar alla detta
✓Server-side-rendera eller pre-rendera de första 200–500 orden av varje viktig sida så att AI-crawlers ser substantiellt innehåll i det initiala HTML-svaret
✓Sampla serverloggar veckovis för GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot och Google-Extended-träffar — bekräfta 200-svar, genomsnittlig svarstid under 2 sekunder och stadig crawl-frekvens
✓Om du har en betalvägg, exponera en 200–300 ords executive summary i HTML och använd Schema.org paywalledContent för att markera de skyddade avsnitten — bevarar intäkter samtidigt som AI-citeringsberättigande behålls

Snabba tips för AI-bot-åtkomst

•Använd alltid explicita Allow-regler per AI-bot — "User-agent: * / Allow: /" verkar tillåtande men signalerar inte avsikt och många WAF:er åsidosätter den
•Kontrollera din CDN-instrumentpanel före robots.txt — Cloudflares ändring i juli 2025 blockerar AI-crawlers som standard för nya kunder, oavsett vad din robots.txt säger
•Tillåt både träningsbottar (GPTBot, ClaudeBot) och söktidsbottar (OAI-SearchBot, ChatGPT-User, Claude-SearchBot, PerplexityBot) — de tjänar olika delar av AI-svarspipelinen
•Förlita dig inte på llms.txt som din primära åtkomstmekanism — i slutet av 2025 läser ingen större AI-crawler den; robots.txt förblir den enda universellt respekterade standarden
•Rendera kritiskt innehåll på serversidan eller via SSG — endast Googlebot kör tillförlitligt JavaScript bland större crawlers, så JS-only-innehåll är osynligt för GPTBot, ClaudeBot och PerplexityBot
•Sampla dina åtkomstloggar veckovis för AI-user-agent-strängarna — ett plötsligt fall till noll är den tidigaste signalen om en oavsiktlig blockering från en CDN-uppdatering eller WAF-regelförändring

Vanliga frågor

Bör jag blockera GPTBot för att skydda mitt innehåll från AI-träning?

För de flesta sajter, nej. Originality.ai fann att 35,7 % av de 1 000 främsta sajterna blockerar GPTBot, men en Hack/Hackers-analys visade att större utgivare som blockerade AI-bottar därefter förlorade ungefär 23 % av sin trafik. Om du inte har ett licensavtal värt flera miljoner dollar (NYT-Amazon, News Corp-OpenAI) eller om din affärsmodell beror på sluten expertis, tar blockering bort din enda väg in i AI-sökresultat — vilket i ökande grad är där kunderna börjar sina resor. Standardvalet för icke-utgivare bör vara Allow.

Vilken inverkan har det att tillåta AI-bottar på min GEO-Score?

Att tillåta AI-bottar är förutsättningen för varje annat GEO-mätvärde. Analysatorn behandlar bot-åtkomst som en grindfaktor: om AI-crawlers inte kan nå dina sidor blir dina poäng för citeringar, schema, innehållsstruktur och färskhet alla akademiska. Sajter som byter från blockering till tillåtande ser vanligtvis AI-driven trafik dyka upp inom 2–6 veckor, beroende på hur ofta varje bot återindexerar. Förändringen har ingen negativ SEO-påverkan eftersom Googlebot och Google-Extended är oberoende — att blockera den ena påverkar inte den andra.

Vad är skillnaden mellan GPTBot, ChatGPT-User och OAI-SearchBot?

OpenAI använder tre crawlers för olika syften. GPTBot crawlar brett för att samla träningsdata för framtida modellversioner. OAI-SearchBot indexerar sidor för ChatGPT:s inbyggda sökfunktion, som visar resultat i realtid under konversationer. ChatGPT-User triggas när en enskild ChatGPT-användare ber modellen att hämta en specifik URL eller bläddra ett ämne. För att vara fullt synlig i OpenAI:s ekosystem bör du tillåta alla tre — att blockera GPTBot stoppar bara träningsdata-inkludering, inte live-citeringar.

Påverkar blockering av Google-Extended mina Google-sökrankningar?

Nej. Googles officiella dokumentation anger att Google-Extended är en separat token från Googlebot, och att blockera den har ingen påverkan på sökrankningar, indexering eller synlighet. Google-Extended kontrollerar bara om ditt innehåll kan användas för att träna Gemini och för att förankra Google AI Overviews-svar. Många utgivare blockerar Google-Extended för att begränsa träningsdata-användning samtidigt som de behåller full sökmotor-närvaro — även om detta också minskar chansen att citeras inuti AI Overviews.

Varför crawlar AI-bottar min sajt så mycket utan att skicka tillbaka trafik?

Detta är crawl-till-referral-gapet. Cloudflares analys 2025 fann att Anthropics förhållande nådde sin topp nära 500 000:1 (500 000 sidhämtningar per mänsklig hänvisning) innan det stabiliserades vid 25 000:1 till 100 000:1, medan OpenAI:s GPTBot-förhållande låg runt 1 200–3 700:1. Obalansen är verklig, men alternativet — blockering — eliminerar den lilla men växande hänvisningsströmmen helt och tar bort dig från svaren användarna ser, även när dessa svar inte klickas igenom. För de flesta sajter är det bästa svaret att tillåta åtkomst samtidigt som man säkerställer crawl-effektivitet (snabba svar, korrekta sitemaps) snarare än att blockera.

Bör jag implementera en llms.txt-fil tillsammans med robots.txt?

Inte som ersättning för robots.txt. llms.txt-förslaget från Jeremy Howard (september 2024) är en intressant standard för att vägleda AI till värdefulla resurser, men i slutet av 2025 har ingen större AI-crawler — OpenAI, Anthropic, Google, Perplexity — bekräftat att de läser eller följer llms.txt. En revision av serverloggar över hundratals sajter i oktober 2025 fann noll LLM-crawlers som begärde llms.txt-filer. Det kostar lite att lägga till som en framtidssäkrande åtgärd, men varje åtkomstbeslut idag beror fortfarande på robots.txt, serverns svarskoder och CDN/WAF-konfiguration.

Relaterade mätvärden att utforska

Sidhastighet
Långsamma svar gör att AI-crawlers får timeout — sidhastighet förvandlar åtkomst från "tillåten" till "faktiskt crawlbar"
Sitemap och upptäckbarhet
När bottar väl kan komma åt din sajt avgör din sitemap och länkstruktur vilka sidor de faktiskt hittar
Schema-validator
Schema-markering hjälper AI-crawlers att tolka tillgängliga sidor — inklusive paywalledContent-annoteringar för hybridmodeller
AI-optimering
Den övergripande poängen som kombinerar bot-åtkomst, schema, struktur och färskhet till en enda AI-redo-signal

AI-bot-åtkomst