Qu'est-ce que l'accès des bots IA ?
L'accès des bots IA mesure si les crawlers IA — GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot, ChatGPT-User et d'autres — peuvent réellement atteindre et lire vos pages. La vérification examine quatre couches : les directives robots.txt, les codes de réponse du serveur, le blocage par IP des CDN et WAF, et si le contenu est verrouillé derrière du JavaScript ou des paywalls. Chaque couche peut tuer silencieusement la visibilité IA, et de nombreux sites sont bloqués à un ou plusieurs niveaux sans le savoir.
Cette métrique est le gardien de tout le GEO-Score. Un parfait 100/100 sur le schéma, les citations, la fraîcheur et la structure produit exactement zéro citation IA si une seule ligne Disallow dans robots.txt ou une règle WAF par défaut éconduit les crawlers. Cloudflare a annoncé en juillet 2025 que son réseau bloque désormais les crawlers IA par défaut pour les nouveaux clients — ce qui signifie qu'une part significative du web s'est éteinte pour l'IA du jour au lendemain.
Pourquoi l'accès des bots IA est important
La recherche IA représente désormais une part mesurable du trafic web total, mais c'est aussi la source de trafic la plus fragile — une seule règle mal configurée peut effacer votre présence de ChatGPT, Claude et Perplexity simultanément. Trois forces expliquent pourquoi l'accès des bots mérite votre attention avant tout autre travail GEO.
L'accès des bots est un filtre binaire
Les crawlers IA n'indexent pas partiellement un site bloqué — ils l'ignorent entièrement. Si GPTBot, ClaudeBot ou PerplexityBot reçoit un 403, un Disallow robots.txt ou un challenge WAF, la page est traitée comme inexistante pour les réponses IA. Il n'y a pas de résultat « visibilité réduite » : c'est l'éligibilité totale aux citations ou rien du tout.
La plupart des blocages sont accidentels
Originality.ai a constaté que GPTBot est désormais bloqué par 35,7 % des 1 000 plus grands sites web, mais des entretiens avec des propriétaires de sites montrent que beaucoup de ces blocages ont été hérités de jeux de règles WAF par défaut, de modèles robots.txt copiés-collés ou de modes bot-fight de CDN qui classifient GPTBot comme un scraper générique. Peu de ces propriétaires se sont fixés pour but de bloquer l'IA ; ils ont simplement oublié de l'autoriser.
Les crawlers IA sont agressifs — mais sélectifs
Cloudflare a indiqué que GPTBot a augmenté de 305 % en requêtes brutes entre mai 2024 et mai 2025, tandis que PerplexityBot a augmenté de 157 490 % à partir d'une base réduite. Ce volume s'accompagne d'un budget : les bots privilégient les sites qui répondent rapidement, renvoient des 200 et servent du contenu dans le HTML initial. Les sites qui renvoient parfois des 5xx, cachent du contenu derrière du JavaScript ou limitent le débit pour les bots IA voient leurs citations chuter même sans blocage explicite.
Ce que dit la recherche
GPTBot increased its share of all crawler traffic from 2.2% to 7.7%, with a 305% rise in raw requests over 12 months — jumping from rank #9 to rank #3 among all web crawlers. PerplexityBot showed the most explosive growth at 157,490% from a minimal baseline. Yet only 14% of analyzed domains had any specific robots.txt directives targeting AI bots — leaving the other 86% silently allowing or blocking AI traffic by accident.
João Tomé, Jorge Pacheco, Carlos Azevedo — From Googlebot to GPTBot: Who's Crawling Your Site in 2025, Cloudflare Blog, July 2025 — analysis of 3,816 top domains
GPTBot is now blocked by 35.7% of the top 1,000 websites, up from just 5% when it was first introduced in August 2023. The percentage of sites blocking GPTBot was increasing by approximately 5% per week in the early stages following the bot's announcement. Many of these blocks were inherited from default templates and CDN rules rather than deliberate policy decisions.
Originality.ai — GPTBot Blocking Tracker, August 2024 update — quarterly study of the Quantcast top 1,000 websites since GPTBot launch
Anthropic's crawl-to-referral ratio peaked near 500,000:1 early in 2025 before settling between 25,000:1 and 100,000:1, while OpenAI's GPTBot ratio spiked to roughly 3,700:1 in March 2025. This imbalance — bots taking far more than they return in human visits — is the main reason publishers are tempted to block, but for any site that is not a major news brand, blocking removes the only path to AI search citations entirely.
Cloudflare Radar — The crawl-to-click gap: AI bots, training, and referrals, 2025 — multi-month analysis of crawler-to-human-referral ratios across the Cloudflare network
3 scénarios réels d'accès des bots
Ces trois modèles montrent comment le même contenu peut être invisible ou totalement citable par l'IA selon quelques lignes de configuration. Chaque cas « mauvais » est un schéma réel observé lors d'audits — la version « bonne » est la correction minimale qui maintient le contenu protégé là où il doit l'être tout en laissant passer les bots IA partout ailleurs.
Exemple 1 : site d'actualités régional avec robots.txt par défaut
Un éditeur de presse régional utilise un modèle de CMS livré avec un robots.txt contenant User-agent: GPTBot / Disallow: / et User-agent: ClaudeBot / Disallow: /. L'équipe éditoriale ignore l'existence de ces lignes. Le site a un E-E-A-T élevé, des articles mis à jour quotidiennement et un bon schéma, mais en 18 mois, ChatGPT et Claude n'ont jamais cité un seul article. Les logs serveur confirment que GPTBot frappe /robots.txt toutes les quelques heures et repart.
Pourquoi cela échoue : le Disallow sur le chemin racine indique à GPTBot et ClaudeBot d'ignorer tout le domaine. Les deux bots respectent robots.txt, donc tout l'investissement éditorial produit zéro citation IA. L'éditeur ne comprend pas pourquoi des concurrents avec un contenu plus faible sont cités quotidiennement — jusqu'à ce que quelqu'un lise le robots.txt.
L'éditeur réécrit robots.txt en : User-agent: GPTBot / Allow: / / User-agent: OAI-SearchBot / Allow: / / User-agent: ChatGPT-User / Allow: / / User-agent: ClaudeBot / Allow: / / User-agent: PerplexityBot / Allow: / / Sitemap: https://news.example.com/sitemap.xml. Les logs serveur sont échantillonnés chaque semaine pour confirmer les réponses 200 et suivre la fréquence de crawl par bot. En quatre semaines, ChatGPT search commence à citer les articles récents par leur nom.
Pourquoi cela fonctionne : les règles Allow explicites remplacent les valeurs par défaut héritées des modèles et signalent l'intention à chaque crawler IA. Lister à la fois les bots d'entraînement (GPTBot, ClaudeBot) et les bots de recherche en temps réel (OAI-SearchBot, ChatGPT-User) couvre à la fois les citations en données d'entraînement et les requêtes de réponses en direct. La ligne Sitemap indique aux crawlers les URL à prioriser — les nouveaux articles apparaissent ainsi dans les réponses IA en quelques jours, pas en mois.
Exemple 2 : marque e-commerce derrière un WAF par défaut
Une marque e-commerce de taille moyenne sur Cloudflare a un robots.txt propre qui autorise tous les bots IA. Mais son WAF a « Block AI bots » activé dans Super Bot Fight Mode et une règle personnalisée bloquant tout user-agent contenant « bot » qui n'est pas Googlebot ou Bingbot. Les crawlers IA reçoivent des réponses 403 Forbidden à chaque requête. Listings produits, guides d'achat et pages de catégories n'entrent jamais dans les données d'entraînement IA ni dans les index de recherche en direct.
Pourquoi cela échoue : robots.txt est honnête, mais le WAF s'exécute en premier. La documentation de Cloudflare indique explicitement que la règle de blocage des bots IA prend précédence sur Allow Verified Bots — donc même les crawlers IA que Cloudflare a vérifiés par IP sont bloqués. La marque ne voit aucune référence ChatGPT ou Perplexity malgré d'excellents scores de qualité de contenu.
La marque désactive le bouton global « Block AI bots » et crée à la place une liste d'autorisation Cloudflare AI Crawl Control pour GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, PerplexityBot et Google-Extended. La règle WAF personnalisée est réécrite pour challenger les bots non vérifiés tout en laissant passer les crawlers IA vérifiés. Une revue mensuelle vérifie les logs de crawl IA, et tout nouveau bot IA commercialement pertinent est ajouté à la liste d'autorisation sous 7 jours.
Pourquoi cela fonctionne : les bots IA vérifiés arrivent depuis des plages d'IP publiées que Cloudflare authentifie — la liste d'autorisation fait confiance à l'identité du bot, pas seulement à la chaîne user-agent (que les scrapers peuvent falsifier). La marque conserve sa protection contre les scrapers malveillants tout en ouvrant la porte à chaque moteur de recherche IA pouvant générer des achats. En un trimestre, la marque commence à apparaître dans les réponses ChatGPT pour les requêtes à intention d'achat.
Exemple 3 : éditeur sur abonnement avec paywall strict
Une publication B2B sur abonnement affiche un teaser de 50 mots puis une fenêtre modale de connexion en pleine page, servie via JavaScript au chargement de la page. Les crawlers IA, dont GPTBot, n'exécutent pas JavaScript ; ils voient donc le teaser plus le HTML de la modale. Les articles ne sont jamais entraînés, et au moment de la recherche les moteurs de recherche IA n'ont rien à citer — ils se rabattent sur des sources concurrentes qui écrivent ouvertement sur les mêmes sujets. La croissance des abonnements ralentit car la marque n'apparaît jamais dans les réponses IA où les décideurs recherchent des fournisseurs.
Pourquoi cela échoue : les crawlers IA récupèrent uniquement le HTML brut. Un paywall injecté en JavaScript est invisible pour les humains (il se charge ensuite) mais bloque l'IA complètement — elle ne voit que le teaser de 50 mots. Il n'y a aucun chemin pour que l'expertise de l'éditeur entre dans les données d'entraînement IA ou les pipelines de réponses en direct, même si la qualité éditoriale est la meilleure du secteur.
L'éditeur introduit un « résumé exécutif » de 250 mots rendu dans le HTML initial pour chaque article : la conclusion clé, le point de données, la recommandation et la source. L'analyse approfondie complète reste derrière le paywall. Robots.txt autorise GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot et Google-Extended. Le balisage Schema.org Article avec annotation paywalledContent indique aux crawlers les sections qui nécessitent un abonnement, tandis que la section résumé est librement indexable.
Pourquoi cela fonctionne : les crawlers IA disposent désormais de contenu substantiel et citable pour chaque article — le résumé est suffisamment long pour être une réponse complète (selon la recherche Answer Completeness, les passages autonomes de 200 mots sont idéaux). Lorsqu'un décideur demande à ChatGPT « qui est la source de référence sur X », le résumé de l'éditeur est cité et le clic vers le rapport complet convertit. Le paywall protège les revenus d'abonnement tandis que l'IA devient un canal d'acquisition top-of-funnel.
Comment améliorer votre score d'accès des bots IA
À NE PAS faire
- ✗Utiliser User-agent: * / Disallow: / ou tout blocage global dans robots.txt — cela tue l'accès IA pour tous les crawlers en une ligne, y compris ceux que vous voulez
- ✗Laisser activés les boutons WAF « Block AI bots » par défaut sans les revoir — Cloudflare et d'autres CDN livrent de plus en plus le blocage IA activé par défaut, y compris pour les bots vérifiés
- ✗Bloquer uniquement par chaîne user-agent — les scrapers falsifient « GPTBot » facilement, et les bots légitimes peuvent être usurpés ; vérifiez plutôt par plage d'IP ou utilisez les listes de bots vérifiés par CDN
- ✗Verrouiller le contenu principal derrière des composants rendus en JavaScript ou des routes single-page-app — GPTBot, ClaudeBot et PerplexityBot n'exécutent pas JavaScript et ne verront que la coquille HTML initiale
- ✗Sauter la surveillance des logs serveur des bots IA — sans vérifications hebdomadaires des accès de GPTBot, ClaudeBot et PerplexityBot, des blocages accidentels peuvent persister des mois avant que quelqu'un ne remarque le trafic IA manquant
Faites ceci à la place
- ✓Ajoutez explicitement User-agent: GPTBot / Allow: /, plus les équivalents pour ClaudeBot, PerplexityBot, OAI-SearchBot, ChatGPT-User, Google-Extended et Applebot-Extended dans robots.txt
- ✓Mettez en liste blanche les bots IA vérifiés dans votre WAF en utilisant leurs plages d'IP publiées — Cloudflare AI Crawl Control, Vercel AI Bot Manager et Akamai exposent tous cela
- ✓Effectuez un rendu côté serveur ou un pré-rendu des 200 à 500 premiers mots de chaque page importante afin que les crawlers IA voient un contenu substantiel dans la réponse HTML initiale
- ✓Échantillonnez les logs serveur chaque semaine pour les accès GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot et Google-Extended — confirmez les réponses 200, un temps de réponse moyen inférieur à 2 secondes et une fréquence de crawl régulière
- ✓Si vous avez un paywall, exposez un résumé exécutif de 200-300 mots en HTML et utilisez Schema.org paywalledContent pour marquer les sections protégées — cela préserve les revenus tout en maintenant l'éligibilité aux citations IA
Conseils rapides pour l'accès des bots IA
- •Utilisez toujours des règles Allow explicites par bot IA — « User-agent: * / Allow: / » paraît permissif mais ne signale pas l'intention et de nombreux WAF le contournent
- •Vérifiez le tableau de bord de votre CDN avant robots.txt — le changement de Cloudflare de juillet 2025 bloque les crawlers IA par défaut pour les nouveaux clients, peu importe ce que dit votre robots.txt
- •Autorisez à la fois les bots d'entraînement (GPTBot, ClaudeBot) et les bots de recherche en temps réel (OAI-SearchBot, ChatGPT-User, Claude-SearchBot, PerplexityBot) — ils servent différentes parties du pipeline de réponses IA
- •Ne comptez pas sur llms.txt comme votre mécanisme d'accès principal — fin 2025, aucun crawler IA majeur ne le lit ; robots.txt reste le seul standard universellement respecté
- •Effectuez le rendu du contenu critique côté serveur ou via SSG — seul Googlebot exécute JavaScript de manière fiable parmi les crawlers majeurs, donc le contenu uniquement JS est invisible pour GPTBot, ClaudeBot et PerplexityBot
- •Échantillonnez chaque semaine vos logs d'accès pour les chaînes user-agent IA — une chute soudaine à zéro est le signal le plus précoce d'un blocage accidentel suite à une mise à jour CDN ou un changement de règle WAF
Questions fréquentes
Devrais-je bloquer GPTBot pour protéger mon contenu de l'entraînement IA ?
Quel est l'impact d'autoriser les bots IA sur mon GEO-Score ?
Quelle est la différence entre GPTBot, ChatGPT-User et OAI-SearchBot ?
Bloquer Google-Extended affecte-t-il mon classement Google Search ?
Pourquoi les bots IA crawlent-ils tant mon site sans renvoyer de trafic ?
Devrais-je implémenter un fichier llms.txt en plus de robots.txt ?
Métriques associées à explorer
- Vitesse de page
Des réponses lentes provoquent des timeouts des crawlers IA — la vitesse de page transforme l'accès « autorisé » en « réellement crawlable »
- Sitemap et découvrabilité
Une fois que les bots peuvent accéder à votre site, votre sitemap et la structure des liens déterminent quelles pages ils trouvent réellement
- Validateur de Schema
Le balisage Schema aide les crawlers IA à interpréter les pages accessibles — y compris les annotations paywalledContent pour les modèles hybrides
- Optimisation IA
Le score parapluie qui combine accès des bots, schéma, structure et fraîcheur en un seul signal de préparation à l'IA