KI-Bot-Zugriff: 5,6 Mio. Sites blockieren GPTBot

Was ist KI-Bot-Zugriff?

KI-Bot-Zugriff misst, ob KI-Crawler — GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot, ChatGPT-User und andere — Ihre Seiten tatsächlich erreichen und lesen können. Geprüft werden vier Schichten: robots.txt-Anweisungen, Server-Antwortcodes, IP-basiertes Blocking durch CDNs und WAFs, sowie ob Inhalte hinter JavaScript oder Paywalls verborgen sind. Jede Schicht kann KI-Sichtbarkeit unbemerkt zerstören, und viele Sites werden auf einer oder mehreren blockiert, ohne es zu merken.

Diese Metrik ist der Türsteher für den gesamten GEO-Score. Eine perfekte 100/100 bei Schema, Zitaten, Aktualität und Struktur bringt exakt null KI-Zitate, wenn eine einzige Disallow-Zeile in robots.txt oder eine Standard-WAF-Regel Crawler abweist. Cloudflare meldete im Juli 2025, dass sein Netzwerk KI-Crawler standardmäßig für Neukunden blockiert — wodurch ein erheblicher Teil des Webs für KI über Nacht dunkel wurde.

Warum KI-Bot-Zugriff wichtig ist

KI-Suche ist heute ein messbarer Anteil am gesamten Webtraffic, aber sie ist auch die fragilste Trafficquelle — eine fehlkonfigurierte Regel kann Ihre Präsenz in ChatGPT, Claude und Perplexity gleichzeitig auslöschen. Drei Faktoren erklären, warum Bot-Zugriff vor jeder anderen GEO-Arbeit Aufmerksamkeit verdient.

Bot-Zugriff ist ein binärer Türsteher

KI-Crawler indexieren eine blockierte Site nicht teilweise — sie überspringen sie vollständig. Erhält GPTBot, ClaudeBot oder PerplexityBot ein 403, ein robots.txt-Disallow oder eine WAF-Challenge, gilt die Seite für KI-Antworten als nicht existent. Es gibt kein „reduzierte Sichtbarkeit“-Ergebnis: entweder volle Zitierfähigkeit oder gar keine.

Die meisten Blockierungen sind versehentlich

Originality.ai stellte fest, dass GPTBot inzwischen von 35,7 % der Top-1.000-Websites blockiert wird, doch Interviews mit Site-Betreibern zeigen, dass viele dieser Blockierungen aus Standard-WAF-Regelsätzen, Copy-Paste-robots.txt-Vorlagen oder CDN-Bot-Fight-Modi stammen, die GPTBot als generischen Scraper einstufen. Wenige dieser Betreiber wollten KI bewusst blockieren; sie haben schlicht vergessen, sie zuzulassen.

KI-Crawler sind aggressiv — aber selektiv

Cloudflare berichtete, GPTBot wuchs zwischen Mai 2024 und Mai 2025 um 305 % bei Roh-Anfragen, während PerplexityBot von einer kleinen Basis aus um 157.490 % wuchs. Dieses Volumen kommt mit einem Budget: Bots priorisieren Sites, die schnell antworten, 200er zurückgeben und Inhalte im initialen HTML ausliefern. Sites, die zeitweise 5xx-Fehler liefern, Inhalte hinter JavaScript verbergen oder KI-Bots ratenbegrenzen, sehen Zitate sinken — auch ohne expliziten Block.

Was die Forschung sagt

GPTBot increased its share of all crawler traffic from 2.2% to 7.7%, with a 305% rise in raw requests over 12 months — jumping from rank #9 to rank #3 among all web crawlers. PerplexityBot showed the most explosive growth at 157,490% from a minimal baseline. Yet only 14% of analyzed domains had any specific robots.txt directives targeting AI bots — leaving the other 86% silently allowing or blocking AI traffic by accident.
João Tomé, Jorge Pacheco, Carlos Azevedo — From Googlebot to GPTBot: Who's Crawling Your Site in 2025, Cloudflare Blog, July 2025 — analysis of 3,816 top domains

GPTBot is now blocked by 35.7% of the top 1,000 websites, up from just 5% when it was first introduced in August 2023. The percentage of sites blocking GPTBot was increasing by approximately 5% per week in the early stages following the bot's announcement. Many of these blocks were inherited from default templates and CDN rules rather than deliberate policy decisions.
Originality.ai — GPTBot Blocking Tracker, August 2024 update — quarterly study of the Quantcast top 1,000 websites since GPTBot launch

Anthropic's crawl-to-referral ratio peaked near 500,000:1 early in 2025 before settling between 25,000:1 and 100,000:1, while OpenAI's GPTBot ratio spiked to roughly 3,700:1 in March 2025. This imbalance — bots taking far more than they return in human visits — is the main reason publishers are tempted to block, but for any site that is not a major news brand, blocking removes the only path to AI search citations entirely.
Cloudflare Radar — The crawl-to-click gap: AI bots, training, and referrals, 2025 — multi-month analysis of crawler-to-human-referral ratios across the Cloudflare network

3 reale Bot-Zugriff-Szenarien

Diese drei Muster zeigen, wie derselbe Inhalt für KI je nach wenigen Konfigurationszeilen unsichtbar oder voll zitierfähig sein kann. Jeder „schlechte“ Fall ist ein in Audits beobachtetes Muster — die „gute“ Version ist die Mindestlösung, die Inhalte dort schützt, wo sie geschützt sein sollen, KI-Bots aber überall sonst durchlässt.

Beispiel 1: Regionale Nachrichtenseite mit Standard-robots.txt

Blockiert — unsichtbar für ChatGPT und Claude

Ein regionaler Nachrichtenverlag nutzt eine CMS-Vorlage, die mit einer robots.txt ausgeliefert wird, in der User-agent: GPTBot / Disallow: / und User-agent: ClaudeBot / Disallow: / steht. Das Redaktionsteam weiß nichts davon. Die Site hat hohes E-E-A-T, täglich aktualisierte Artikel und gutes Schema, aber in 18 Monaten haben ChatGPT und Claude keinen einzigen Artikel zitiert. Server-Logs bestätigen, dass GPTBot alle paar Stunden /robots.txt aufruft und wieder abdreht.

Warum das nicht funktioniert: Das Disallow auf dem Root-Pfad weist GPTBot und ClaudeBot an, die gesamte Domain zu überspringen. Beide Bots respektieren robots.txt, also bringt die gesamte redaktionelle Investition null KI-Zitate. Der Verlag versteht nicht, warum Wettbewerber mit schwächeren Inhalten täglich zitiert werden — bis jemand die robots.txt liest.

Erlaubt und überwacht — volle KI-Sichtbarkeit wiederhergestellt

Der Verlag schreibt die robots.txt um zu: User-agent: GPTBot / Allow: / / User-agent: OAI-SearchBot / Allow: / / User-agent: ChatGPT-User / Allow: / / User-agent: ClaudeBot / Allow: / / User-agent: PerplexityBot / Allow: / / Sitemap: https://news.example.com/sitemap.xml. Server-Logs werden wöchentlich stichprobenartig auf 200-Antworten geprüft und die Crawl-Frequenz pro Bot getrackt. Innerhalb von vier Wochen beginnt die ChatGPT-Suche, aktuelle Artikel namentlich zu zitieren.

Warum das funktioniert: Explizite Allow-Regeln überschreiben jede geerbte Vorlagen-Standardeinstellung und signalisieren Absicht an jeden KI-Crawler. Sowohl Trainings-Bots (GPTBot, ClaudeBot) als auch Search-Time-Bots (OAI-SearchBot, ChatGPT-User) zu listen, deckt sowohl Trainingsdaten-Zitate als auch Live-Antwort-Abrufe ab. Die Sitemap-Zeile sagt Crawlern genau, welche URLs Priorität haben — neue Artikel erscheinen so in Tagen statt Monaten in KI-Antworten.

Beispiel 2: E-Commerce-Marke hinter Standard-WAF

WAF blockiert KI-Bots stillschweigend — robots.txt ist okay, trotzdem unsichtbar

Eine mittelgroße E-Commerce-Marke auf Cloudflare hat eine saubere robots.txt, die alle KI-Bots zulässt. Aber ihre WAF hat „Block AI bots“ im Super Bot Fight Mode aktiviert und eine eigene Regel, die jeden User-Agent mit „bot“ blockt, sofern er nicht Googlebot oder Bingbot ist. KI-Crawler erhalten 403 Forbidden bei jeder Anfrage. Produktlisten, Kaufratgeber und Kategorieseiten gelangen nie in KI-Trainingsdaten oder Live-Suchindizes.

Warum das nicht funktioniert: Die robots.txt ist ehrlich, aber die WAF wird zuerst ausgeführt. Cloudflares Dokumentation sagt explizit, dass die AI-Bot-Blockregel Vorrang vor Allow Verified Bots hat — selbst von Cloudflare per IP verifizierte KI-Crawler werden geblockt. Die Marke sieht null ChatGPT- oder Perplexity-Referrals, obwohl die Inhaltsqualität exzellent bewertet wird.

Selektive WAF-Whitelist — Scraper blockieren, benannte KI-Bots erlauben

Die Marke deaktiviert die pauschale „Block AI bots“-Option und erstellt stattdessen eine Cloudflare-AI-Crawl-Control-Allow-Liste für GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, PerplexityBot und Google-Extended. Die WAF-Custom-Regel wird so umgeschrieben, dass nicht verifizierte Bots gechallenged werden, verifizierte KI-Crawler aber durchgelassen werden. Eine monatliche Prüfung kontrolliert AI-Crawl-Logs, jeder neue kommerziell relevante KI-Bot wird innerhalb von 7 Tagen aufgenommen.

Warum das funktioniert: Verifizierte KI-Bots kommen aus veröffentlichten IP-Bereichen, die Cloudflare authentifiziert — die Allow-Liste vertraut der Bot-Identität, nicht nur dem User-Agent-String (den Scraper fälschen können). Die Marke behält den Schutz vor bösartigen Scrapern und öffnet die Tür für jede KI-Suchmaschine, die Käufe anstoßen kann. Innerhalb eines Quartals erscheint die Marke in ChatGPT-Shopping-Antworten zu Kaufabsichts-Anfragen.

Beispiel 3: Abonnement-Verlag mit harter Paywall

Harte Paywall — KI sieht eine Login-Wand, nicht den Artikel

Eine B2B-Abo-Publikation zeigt einen 50-Wörter-Teaser, dann ein ganzseitiges Login-Modal, das per JavaScript beim Seitenaufbau geladen wird. KI-Crawler einschließlich GPTBot führen kein JavaScript aus, sie sehen also den Teaser plus den Modal-HTML. Artikel werden nie für Training genutzt, und zur Antwortzeit haben KI-Suchmaschinen nichts zum Zitieren — sie greifen auf Wettbewerber zurück, die offen über dieselben Themen schreiben. Das Abo-Wachstum verlangsamt sich, weil die Marke nie in KI-Antworten erscheint, in denen Entscheider Anbieter recherchieren.

Warum das nicht funktioniert: KI-Crawler holen nur rohes HTML. Eine per JavaScript injizierte Paywall ist für Menschen unsichtbar (sie lädt nach), blockiert aber KI vollständig — diese sehen nur den 50-Wort-Teaser. Es gibt keinen Weg, wie die Expertise des Verlags in KI-Trainingsdaten oder Live-Antwort-Pipelines gelangen könnte, obwohl die redaktionelle Qualität die höchste der Branche ist.

Hybrid-Modell — KI-lesbare Zusammenfassung plus Paywall

Der Verlag führt für jeden Artikel eine 250-Wörter-„Executive Summary“ ein, die im initialen HTML gerendert wird: die Schlüsselfindung, der Datenpunkt, die Empfehlung, die Quelle. Die vollständige Tiefenanalyse bleibt hinter der Paywall. Robots.txt erlaubt GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot und Google-Extended. Schema.org-Article-Markup mit paywalledContent-Annotation sagt Crawlern, welche Abschnitte ein Abo erfordern, während der Summary-Abschnitt frei indexierbar ist.

Warum das funktioniert: KI-Crawler haben jetzt für jeden Artikel substanziellen, zitierbaren Inhalt — die Zusammenfassung ist lang genug für eine vollständige Antwort (laut Answer-Completeness-Forschung sind 200-Wort-Standalone-Passagen ideal). Wenn ein Entscheider ChatGPT fragt „Wer ist die führende Quelle zu X“, wird die Zusammenfassung des Verlags zitiert, und der Klick zum Volltextbericht konvertiert. Die Paywall schützt Abo-Umsätze, während KI zu einem Top-of-Funnel-Akquisekanal wird.

So verbessern Sie Ihren KI-Bot-Zugriffs-Score

Das sollten Sie NICHT tun

✗User-agent: * / Disallow: / oder einen globalen Block in robots.txt einsetzen — das tötet den KI-Zugriff für jeden Crawler in einer Zeile, einschließlich der gewünschten
✗Standard-WAF-„Block AI bots“-Schalter aktiv lassen, ohne sie zu prüfen — Cloudflare und andere CDNs liefern AI-Blocking zunehmend standardmäßig aktiv aus, auch für verifizierte Bots
✗Allein per User-Agent-String blockieren — Scraper fälschen „GPTBot“ leicht, und legitime Bots können imitiert werden; verifizieren Sie per IP-Bereich oder nutzen Sie CDN-verifizierte Bot-Listen
✗Primärinhalte hinter JavaScript-gerenderten Komponenten oder SPA-Routen verstecken — GPTBot, ClaudeBot und PerplexityBot führen kein JavaScript aus und sehen nur die initiale HTML-Hülle
✗Server-Log-Monitoring von KI-Bots überspringen — ohne wöchentliche Prüfung der GPTBot-, ClaudeBot- und PerplexityBot-Hits können versehentliche Blockierungen monatelang bestehen bleiben, bevor jemand den fehlenden KI-Traffic bemerkt

Tun Sie stattdessen Folgendes

✓Fügen Sie explizit User-agent: GPTBot / Allow: / sowie Äquivalente für ClaudeBot, PerplexityBot, OAI-SearchBot, ChatGPT-User, Google-Extended und Applebot-Extended in die robots.txt ein
✓Whitelisten Sie verifizierte KI-Bots in Ihrer WAF anhand ihrer veröffentlichten IP-Bereiche — Cloudflare AI Crawl Control, Vercel AI Bot Manager und Akamai bieten das
✓Rendern Sie die ersten 200–500 Wörter jeder wichtigen Seite serverseitig oder vor, damit KI-Crawler in der initialen HTML-Antwort substanziellen Inhalt sehen
✓Stichproben-Server-Logs wöchentlich auf GPTBot-, ClaudeBot-, PerplexityBot-, OAI-SearchBot- und Google-Extended-Hits prüfen — bestätigen Sie 200-Antworten, durchschnittliche Antwortzeit unter 2 Sekunden und stetige Crawl-Frequenz
✓Wenn Sie eine Paywall haben, geben Sie eine 200–300-Wörter-Executive-Summary in HTML aus und nutzen Sie Schema.org paywalledContent zur Markierung der geschützten Abschnitte — bewahrt Umsätze und KI-Zitierfähigkeit

Schnelltipps für KI-Bot-Zugriff

•Verwenden Sie immer explizite Allow-Regeln pro KI-Bot — „User-agent: * / Allow: /“ wirkt zwar großzügig, signalisiert aber keine Absicht, und viele WAFs überschreiben das
•Prüfen Sie Ihr CDN-Dashboard vor robots.txt — Cloudflares Änderung vom Juli 2025 blockiert KI-Crawler standardmäßig für Neukunden, unabhängig davon, was in Ihrer robots.txt steht
•Erlauben Sie sowohl Trainings-Bots (GPTBot, ClaudeBot) als auch Search-Time-Bots (OAI-SearchBot, ChatGPT-User, Claude-SearchBot, PerplexityBot) — sie bedienen unterschiedliche Teile der KI-Antwort-Pipeline
•Verlassen Sie sich nicht auf llms.txt als primären Zugriffsmechanismus — Stand Ende 2025 liest sie kein großer KI-Crawler; robots.txt bleibt der einzige universell respektierte Standard
•Rendern Sie kritische Inhalte serverseitig oder per SSG — nur Googlebot führt unter den großen Crawlern zuverlässig JavaScript aus, daher sind reine JS-Inhalte für GPTBot, ClaudeBot und PerplexityBot unsichtbar
•Stichproben Sie Ihre Access-Logs wöchentlich auf KI-User-Agent-Strings — ein plötzlicher Sturz auf null ist das früheste Signal für eine versehentliche Blockierung durch ein CDN-Update oder eine WAF-Regeländerung

Häufig gestellte Fragen

Sollte ich GPTBot blockieren, um meine Inhalte vor KI-Training zu schützen?

Für die meisten Sites: nein. Originality.ai stellte fest, dass 35,7 % der Top-1.000-Sites GPTBot blockieren, doch eine Hack/Hackers-Analyse zeigte, dass große Verlage, die KI-Bots blockierten, anschließend rund 23 % ihres Traffics verloren. Sofern Sie keinen Mehr-Millionen-Dollar-Lizenzdeal haben (NYT-Amazon, News Corp-OpenAI) oder Ihr Geschäftsmodell auf geschlossener Expertise basiert, entfernt Blockieren Ihren einzigen Weg in KI-Suchergebnisse — wo Kunden zunehmend ihre Recherche beginnen. Die Default-Einstellung für Nicht-Verlage sollte Allow sein.

Welche Auswirkung hat das Erlauben von KI-Bots auf meinen GEO-Score?

KI-Bots zu erlauben ist die Voraussetzung für jede andere GEO-Metrik. Der Analyzer behandelt Bot-Zugriff als gating factor: Wenn KI-Crawler Ihre Seiten nicht erreichen, werden Ihre Werte für Zitate, Schema, Inhaltsstruktur und Aktualität alle akademisch. Sites, die vom Blockieren zum Erlauben wechseln, sehen typischerweise innerhalb von 2–6 Wochen KI-getriebenen Traffic, je nachdem, wie oft jeder Bot recrawlt. Die Änderung hat keine negative SEO-Auswirkung, weil Googlebot und Google-Extended unabhängig sind — den einen zu blockieren beeinflusst den anderen nicht.

Was ist der Unterschied zwischen GPTBot, ChatGPT-User und OAI-SearchBot?

OpenAI nutzt drei Crawler für unterschiedliche Zwecke. GPTBot crawlt breit, um Trainingsdaten für künftige Modellversionen zu sammeln. OAI-SearchBot indexiert Seiten für ChatGPTs eingebaute Suchfunktion, die Ergebnisse während Konversationen in Echtzeit anzeigt. ChatGPT-User wird ausgelöst, wenn ein einzelner ChatGPT-Nutzer das Modell auffordert, eine bestimmte URL abzurufen oder ein Thema zu durchsuchen. Um in OpenAIs Ökosystem voll sichtbar zu sein, sollten Sie alle drei erlauben — GPTBot allein zu blockieren stoppt nur die Trainingsdaten-Inklusion, nicht Live-Zitate.

Beeinflusst das Blockieren von Google-Extended meine Google-Such-Rankings?

Nein. Googles offizielle Dokumentation besagt, dass Google-Extended ein vom Googlebot getrenntes Token ist, und das Blockieren hat keine Auswirkung auf Suchrankings, Indexierung oder Sichtbarkeit. Google-Extended steuert nur, ob Ihre Inhalte zum Training von Gemini und zur Grundlage von Google AI Overviews-Antworten verwendet werden dürfen. Viele Verlage blockieren Google-Extended, um Trainingsdaten-Nutzung zu begrenzen, behalten aber die volle Suchpräsenz — was allerdings auch die Chance auf Zitate innerhalb von AI Overviews reduziert.

Warum crawlen KI-Bots meine Site so stark, ohne Traffic zurückzubringen?

Das ist die Crawl-to-Referral-Lücke. Cloudflares Analyse 2025 fand, dass das Verhältnis von Anthropic früh 2025 nahe 500.000:1 spitzte (500.000 Seitenabrufe pro menschlichem Referral), bevor es sich bei 25.000:1 bis 100.000:1 einpendelte; OpenAIs GPTBot-Verhältnis lag um 1.200–3.700:1. Das Ungleichgewicht ist real, aber die Alternative — Blockieren — eliminiert den kleinen, aber wachsenden Referral-Strom vollständig und entfernt Sie aus den Antworten, die Nutzer sehen, selbst wenn diese nicht durchklicken. Für die meisten Sites ist die beste Antwort, Zugriff zu erlauben und gleichzeitig Crawl-Effizienz sicherzustellen (schnelle Antworten, korrekte Sitemaps), statt zu blockieren.

Sollte ich neben robots.txt eine llms.txt-Datei einsetzen?

Nicht als Ersatz für robots.txt. Der llms.txt-Vorschlag von Jeremy Howard (September 2024) ist ein interessanter Standard, um KI auf wertvolle Ressourcen hinzuweisen, aber Stand Ende 2025 hat kein großer KI-Crawler — OpenAI, Anthropic, Google, Perplexity — bestätigt, dass er llms.txt liest oder ihr folgt. Ein Audit von Server-Logs auf hunderten Sites im Oktober 2025 fand null LLM-Crawler, die llms.txt-Dateien anforderten. Es kostet wenig, sie als Zukunftssicherung hinzuzufügen, aber jede Zugriffsentscheidung hängt heute weiterhin von robots.txt, Server-Antwortcodes und CDN/WAF-Konfiguration ab.

KI-Bot-Zugriff