Retour au centre d'apprentissage

Accès des bots IA

Si les crawlers IA ne peuvent pas atteindre votre site, toutes les autres métriques GEO obtiennent zéro

Dernière mise à jour : 4 mai 2026

Qu'est-ce que l'accès des bots IA ?

L'accès des bots IA mesure si les crawlers IA — GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot, ChatGPT-User et d'autres — peuvent réellement atteindre et lire vos pages. La vérification examine quatre couches : les directives robots.txt, les codes de réponse du serveur, le blocage par IP des CDN et WAF, et si le contenu est verrouillé derrière du JavaScript ou des paywalls. Chaque couche peut tuer silencieusement la visibilité IA, et de nombreux sites sont bloqués à un ou plusieurs niveaux sans le savoir.

Cette métrique est le gardien de tout le GEO-Score. Un parfait 100/100 sur le schéma, les citations, la fraîcheur et la structure produit exactement zéro citation IA si une seule ligne Disallow dans robots.txt ou une règle WAF par défaut éconduit les crawlers. Cloudflare a annoncé en juillet 2025 que son réseau bloque désormais les crawlers IA par défaut pour les nouveaux clients — ce qui signifie qu'une part significative du web s'est éteinte pour l'IA du jour au lendemain.

Pourquoi l'accès des bots IA est important

La recherche IA représente désormais une part mesurable du trafic web total, mais c'est aussi la source de trafic la plus fragile — une seule règle mal configurée peut effacer votre présence de ChatGPT, Claude et Perplexity simultanément. Trois forces expliquent pourquoi l'accès des bots mérite votre attention avant tout autre travail GEO.

L'accès des bots est un filtre binaire

Les crawlers IA n'indexent pas partiellement un site bloqué — ils l'ignorent entièrement. Si GPTBot, ClaudeBot ou PerplexityBot reçoit un 403, un Disallow robots.txt ou un challenge WAF, la page est traitée comme inexistante pour les réponses IA. Il n'y a pas de résultat « visibilité réduite » : c'est l'éligibilité totale aux citations ou rien du tout.

La plupart des blocages sont accidentels

Originality.ai a constaté que GPTBot est désormais bloqué par 35,7 % des 1 000 plus grands sites web, mais des entretiens avec des propriétaires de sites montrent que beaucoup de ces blocages ont été hérités de jeux de règles WAF par défaut, de modèles robots.txt copiés-collés ou de modes bot-fight de CDN qui classifient GPTBot comme un scraper générique. Peu de ces propriétaires se sont fixés pour but de bloquer l'IA ; ils ont simplement oublié de l'autoriser.

Les crawlers IA sont agressifs — mais sélectifs

Cloudflare a indiqué que GPTBot a augmenté de 305 % en requêtes brutes entre mai 2024 et mai 2025, tandis que PerplexityBot a augmenté de 157 490 % à partir d'une base réduite. Ce volume s'accompagne d'un budget : les bots privilégient les sites qui répondent rapidement, renvoient des 200 et servent du contenu dans le HTML initial. Les sites qui renvoient parfois des 5xx, cachent du contenu derrière du JavaScript ou limitent le débit pour les bots IA voient leurs citations chuter même sans blocage explicite.

Ce que dit la recherche

GPTBot increased its share of all crawler traffic from 2.2% to 7.7%, with a 305% rise in raw requests over 12 months — jumping from rank #9 to rank #3 among all web crawlers. PerplexityBot showed the most explosive growth at 157,490% from a minimal baseline. Yet only 14% of analyzed domains had any specific robots.txt directives targeting AI bots — leaving the other 86% silently allowing or blocking AI traffic by accident.

João Tomé, Jorge Pacheco, Carlos Azevedo — From Googlebot to GPTBot: Who's Crawling Your Site in 2025, Cloudflare Blog, July 2025 — analysis of 3,816 top domains

GPTBot is now blocked by 35.7% of the top 1,000 websites, up from just 5% when it was first introduced in August 2023. The percentage of sites blocking GPTBot was increasing by approximately 5% per week in the early stages following the bot's announcement. Many of these blocks were inherited from default templates and CDN rules rather than deliberate policy decisions.

Originality.ai — GPTBot Blocking Tracker, August 2024 update — quarterly study of the Quantcast top 1,000 websites since GPTBot launch

Anthropic's crawl-to-referral ratio peaked near 500,000:1 early in 2025 before settling between 25,000:1 and 100,000:1, while OpenAI's GPTBot ratio spiked to roughly 3,700:1 in March 2025. This imbalance — bots taking far more than they return in human visits — is the main reason publishers are tempted to block, but for any site that is not a major news brand, blocking removes the only path to AI search citations entirely.

Cloudflare Radar — The crawl-to-click gap: AI bots, training, and referrals, 2025 — multi-month analysis of crawler-to-human-referral ratios across the Cloudflare network

3 scénarios réels d'accès des bots

Ces trois modèles montrent comment le même contenu peut être invisible ou totalement citable par l'IA selon quelques lignes de configuration. Chaque cas « mauvais » est un schéma réel observé lors d'audits — la version « bonne » est la correction minimale qui maintient le contenu protégé là où il doit l'être tout en laissant passer les bots IA partout ailleurs.

Exemple 1 : site d'actualités régional avec robots.txt par défaut

Bloqué — invisible pour ChatGPT et Claude

Un éditeur de presse régional utilise un modèle de CMS livré avec un robots.txt contenant User-agent: GPTBot / Disallow: / et User-agent: ClaudeBot / Disallow: /. L'équipe éditoriale ignore l'existence de ces lignes. Le site a un E-E-A-T élevé, des articles mis à jour quotidiennement et un bon schéma, mais en 18 mois, ChatGPT et Claude n'ont jamais cité un seul article. Les logs serveur confirment que GPTBot frappe /robots.txt toutes les quelques heures et repart.

Pourquoi cela échoue : le Disallow sur le chemin racine indique à GPTBot et ClaudeBot d'ignorer tout le domaine. Les deux bots respectent robots.txt, donc tout l'investissement éditorial produit zéro citation IA. L'éditeur ne comprend pas pourquoi des concurrents avec un contenu plus faible sont cités quotidiennement — jusqu'à ce que quelqu'un lise le robots.txt.

Autorisé et suivi — visibilité IA complète restaurée

L'éditeur réécrit robots.txt en : User-agent: GPTBot / Allow: / / User-agent: OAI-SearchBot / Allow: / / User-agent: ChatGPT-User / Allow: / / User-agent: ClaudeBot / Allow: / / User-agent: PerplexityBot / Allow: / / Sitemap: https://news.example.com/sitemap.xml. Les logs serveur sont échantillonnés chaque semaine pour confirmer les réponses 200 et suivre la fréquence de crawl par bot. En quatre semaines, ChatGPT search commence à citer les articles récents par leur nom.

Pourquoi cela fonctionne : les règles Allow explicites remplacent les valeurs par défaut héritées des modèles et signalent l'intention à chaque crawler IA. Lister à la fois les bots d'entraînement (GPTBot, ClaudeBot) et les bots de recherche en temps réel (OAI-SearchBot, ChatGPT-User) couvre à la fois les citations en données d'entraînement et les requêtes de réponses en direct. La ligne Sitemap indique aux crawlers les URL à prioriser — les nouveaux articles apparaissent ainsi dans les réponses IA en quelques jours, pas en mois.

Exemple 2 : marque e-commerce derrière un WAF par défaut

Le WAF bloque silencieusement les bots IA — pas de problème robots.txt, pourtant invisible

Une marque e-commerce de taille moyenne sur Cloudflare a un robots.txt propre qui autorise tous les bots IA. Mais son WAF a « Block AI bots » activé dans Super Bot Fight Mode et une règle personnalisée bloquant tout user-agent contenant « bot » qui n'est pas Googlebot ou Bingbot. Les crawlers IA reçoivent des réponses 403 Forbidden à chaque requête. Listings produits, guides d'achat et pages de catégories n'entrent jamais dans les données d'entraînement IA ni dans les index de recherche en direct.

Pourquoi cela échoue : robots.txt est honnête, mais le WAF s'exécute en premier. La documentation de Cloudflare indique explicitement que la règle de blocage des bots IA prend précédence sur Allow Verified Bots — donc même les crawlers IA que Cloudflare a vérifiés par IP sont bloqués. La marque ne voit aucune référence ChatGPT ou Perplexity malgré d'excellents scores de qualité de contenu.

Liste blanche WAF sélective — bloquer les scrapers, autoriser les bots IA nommés

La marque désactive le bouton global « Block AI bots » et crée à la place une liste d'autorisation Cloudflare AI Crawl Control pour GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, PerplexityBot et Google-Extended. La règle WAF personnalisée est réécrite pour challenger les bots non vérifiés tout en laissant passer les crawlers IA vérifiés. Une revue mensuelle vérifie les logs de crawl IA, et tout nouveau bot IA commercialement pertinent est ajouté à la liste d'autorisation sous 7 jours.

Pourquoi cela fonctionne : les bots IA vérifiés arrivent depuis des plages d'IP publiées que Cloudflare authentifie — la liste d'autorisation fait confiance à l'identité du bot, pas seulement à la chaîne user-agent (que les scrapers peuvent falsifier). La marque conserve sa protection contre les scrapers malveillants tout en ouvrant la porte à chaque moteur de recherche IA pouvant générer des achats. En un trimestre, la marque commence à apparaître dans les réponses ChatGPT pour les requêtes à intention d'achat.

Exemple 3 : éditeur sur abonnement avec paywall strict

Paywall strict — l'IA voit un mur de connexion, pas l'article

Une publication B2B sur abonnement affiche un teaser de 50 mots puis une fenêtre modale de connexion en pleine page, servie via JavaScript au chargement de la page. Les crawlers IA, dont GPTBot, n'exécutent pas JavaScript ; ils voient donc le teaser plus le HTML de la modale. Les articles ne sont jamais entraînés, et au moment de la recherche les moteurs de recherche IA n'ont rien à citer — ils se rabattent sur des sources concurrentes qui écrivent ouvertement sur les mêmes sujets. La croissance des abonnements ralentit car la marque n'apparaît jamais dans les réponses IA où les décideurs recherchent des fournisseurs.

Pourquoi cela échoue : les crawlers IA récupèrent uniquement le HTML brut. Un paywall injecté en JavaScript est invisible pour les humains (il se charge ensuite) mais bloque l'IA complètement — elle ne voit que le teaser de 50 mots. Il n'y a aucun chemin pour que l'expertise de l'éditeur entre dans les données d'entraînement IA ou les pipelines de réponses en direct, même si la qualité éditoriale est la meilleure du secteur.

Modèle hybride — résumé lisible par l'IA plus paywall

L'éditeur introduit un « résumé exécutif » de 250 mots rendu dans le HTML initial pour chaque article : la conclusion clé, le point de données, la recommandation et la source. L'analyse approfondie complète reste derrière le paywall. Robots.txt autorise GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot et Google-Extended. Le balisage Schema.org Article avec annotation paywalledContent indique aux crawlers les sections qui nécessitent un abonnement, tandis que la section résumé est librement indexable.

Pourquoi cela fonctionne : les crawlers IA disposent désormais de contenu substantiel et citable pour chaque article — le résumé est suffisamment long pour être une réponse complète (selon la recherche Answer Completeness, les passages autonomes de 200 mots sont idéaux). Lorsqu'un décideur demande à ChatGPT « qui est la source de référence sur X », le résumé de l'éditeur est cité et le clic vers le rapport complet convertit. Le paywall protège les revenus d'abonnement tandis que l'IA devient un canal d'acquisition top-of-funnel.

Comment améliorer votre score d'accès des bots IA

À NE PAS faire

  • Utiliser User-agent: * / Disallow: / ou tout blocage global dans robots.txt — cela tue l'accès IA pour tous les crawlers en une ligne, y compris ceux que vous voulez
  • Laisser activés les boutons WAF « Block AI bots » par défaut sans les revoir — Cloudflare et d'autres CDN livrent de plus en plus le blocage IA activé par défaut, y compris pour les bots vérifiés
  • Bloquer uniquement par chaîne user-agent — les scrapers falsifient « GPTBot » facilement, et les bots légitimes peuvent être usurpés ; vérifiez plutôt par plage d'IP ou utilisez les listes de bots vérifiés par CDN
  • Verrouiller le contenu principal derrière des composants rendus en JavaScript ou des routes single-page-app — GPTBot, ClaudeBot et PerplexityBot n'exécutent pas JavaScript et ne verront que la coquille HTML initiale
  • Sauter la surveillance des logs serveur des bots IA — sans vérifications hebdomadaires des accès de GPTBot, ClaudeBot et PerplexityBot, des blocages accidentels peuvent persister des mois avant que quelqu'un ne remarque le trafic IA manquant

Faites ceci à la place

  • Ajoutez explicitement User-agent: GPTBot / Allow: /, plus les équivalents pour ClaudeBot, PerplexityBot, OAI-SearchBot, ChatGPT-User, Google-Extended et Applebot-Extended dans robots.txt
  • Mettez en liste blanche les bots IA vérifiés dans votre WAF en utilisant leurs plages d'IP publiées — Cloudflare AI Crawl Control, Vercel AI Bot Manager et Akamai exposent tous cela
  • Effectuez un rendu côté serveur ou un pré-rendu des 200 à 500 premiers mots de chaque page importante afin que les crawlers IA voient un contenu substantiel dans la réponse HTML initiale
  • Échantillonnez les logs serveur chaque semaine pour les accès GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot et Google-Extended — confirmez les réponses 200, un temps de réponse moyen inférieur à 2 secondes et une fréquence de crawl régulière
  • Si vous avez un paywall, exposez un résumé exécutif de 200-300 mots en HTML et utilisez Schema.org paywalledContent pour marquer les sections protégées — cela préserve les revenus tout en maintenant l'éligibilité aux citations IA

Conseils rapides pour l'accès des bots IA

  • Utilisez toujours des règles Allow explicites par bot IA — « User-agent: * / Allow: / » paraît permissif mais ne signale pas l'intention et de nombreux WAF le contournent
  • Vérifiez le tableau de bord de votre CDN avant robots.txt — le changement de Cloudflare de juillet 2025 bloque les crawlers IA par défaut pour les nouveaux clients, peu importe ce que dit votre robots.txt
  • Autorisez à la fois les bots d'entraînement (GPTBot, ClaudeBot) et les bots de recherche en temps réel (OAI-SearchBot, ChatGPT-User, Claude-SearchBot, PerplexityBot) — ils servent différentes parties du pipeline de réponses IA
  • Ne comptez pas sur llms.txt comme votre mécanisme d'accès principal — fin 2025, aucun crawler IA majeur ne le lit ; robots.txt reste le seul standard universellement respecté
  • Effectuez le rendu du contenu critique côté serveur ou via SSG — seul Googlebot exécute JavaScript de manière fiable parmi les crawlers majeurs, donc le contenu uniquement JS est invisible pour GPTBot, ClaudeBot et PerplexityBot
  • Échantillonnez chaque semaine vos logs d'accès pour les chaînes user-agent IA — une chute soudaine à zéro est le signal le plus précoce d'un blocage accidentel suite à une mise à jour CDN ou un changement de règle WAF

Questions fréquentes

Devrais-je bloquer GPTBot pour protéger mon contenu de l'entraînement IA ?
Pour la plupart des sites, non. Originality.ai a constaté que 35,7 % des 1 000 plus grands sites bloquent GPTBot, mais une analyse Hack/Hackers a montré que les grands éditeurs ayant bloqué les bots IA ont ensuite perdu environ 23 % de leur trafic. À moins d'avoir un accord de licence à plusieurs millions de dollars (NYT-Amazon, News Corp-OpenAI) ou que votre modèle d'affaires repose sur une expertise fermée, bloquer supprime votre seule voie vers les résultats de recherche IA — où les clients commencent de plus en plus leur parcours. Le défaut pour les non-éditeurs devrait être Allow.
Quel est l'impact d'autoriser les bots IA sur mon GEO-Score ?
Autoriser les bots IA est le prérequis pour toutes les autres métriques GEO. L'analyseur traite l'accès des bots comme un facteur bloquant : si les crawlers IA ne peuvent pas atteindre vos pages, vos scores pour les citations, le schéma, la structure du contenu et la fraîcheur deviennent tous académiques. Les sites qui passent du blocage à l'autorisation voient généralement le trafic généré par l'IA apparaître en 2 à 6 semaines, selon la fréquence de recrawl de chaque bot. Le changement n'a aucun impact SEO négatif car Googlebot et Google-Extended sont indépendants — bloquer l'un n'affecte pas l'autre.
Quelle est la différence entre GPTBot, ChatGPT-User et OAI-SearchBot ?
OpenAI utilise trois crawlers à des fins distinctes. GPTBot crawle largement pour collecter des données d'entraînement pour les futures versions du modèle. OAI-SearchBot indexe les pages pour la fonction de recherche intégrée de ChatGPT, qui fait remonter les résultats en temps réel pendant les conversations. ChatGPT-User est déclenché lorsqu'un utilisateur ChatGPT individuel demande au modèle de récupérer une URL spécifique ou de naviguer sur un sujet. Pour être pleinement visible dans l'écosystème OpenAI, vous devriez autoriser les trois — bloquer GPTBot empêche uniquement l'inclusion dans les données d'entraînement, pas les citations en direct.
Bloquer Google-Extended affecte-t-il mon classement Google Search ?
Non. La documentation officielle de Google indique que Google-Extended est un token séparé de Googlebot, et le bloquer n'a aucun impact sur les classements de recherche, l'indexation ou la visibilité. Google-Extended contrôle uniquement si votre contenu peut être utilisé pour entraîner Gemini et pour étayer les réponses Google AI Overviews. De nombreux éditeurs bloquent Google-Extended pour limiter l'utilisation des données d'entraînement tout en conservant une présence Search complète — bien que cela réduise aussi les chances d'être cité dans AI Overviews.
Pourquoi les bots IA crawlent-ils tant mon site sans renvoyer de trafic ?
C'est l'écart crawl-to-referral. L'analyse 2025 de Cloudflare a constaté que le ratio d'Anthropic a culminé à près de 500 000:1 (500 000 récupérations de page par référence humaine) avant de se stabiliser entre 25 000:1 et 100 000:1, tandis que celui de GPTBot d'OpenAI s'établissait autour de 1 200-3 700:1. Le déséquilibre est réel, mais l'alternative — bloquer — élimine entièrement le flux de références faible mais en croissance et vous retire des réponses que les utilisateurs voient, même quand ces réponses ne génèrent pas de clic. Pour la plupart des sites, la meilleure réponse est d'autoriser l'accès tout en assurant l'efficacité du crawl (réponses rapides, sitemaps précis) plutôt que de bloquer.
Devrais-je implémenter un fichier llms.txt en plus de robots.txt ?
Pas en remplacement de robots.txt. La proposition llms.txt de Jeremy Howard (septembre 2024) est un standard intéressant pour guider l'IA vers des ressources de grande valeur, mais fin 2025 aucun crawler IA majeur — OpenAI, Anthropic, Google, Perplexity — n'a confirmé qu'il lit ou suit llms.txt. Un audit des logs serveur sur des centaines de sites en octobre 2025 a trouvé zéro crawler LLM demandant des fichiers llms.txt. Cela coûte peu de l'ajouter comme mesure de pérennité, mais chaque décision d'accès aujourd'hui dépend toujours de robots.txt, des codes de réponse serveur et de la configuration CDN/WAF.

Métriques associées à explorer

  • Vitesse de page

    Des réponses lentes provoquent des timeouts des crawlers IA — la vitesse de page transforme l'accès « autorisé » en « réellement crawlable »

  • Sitemap et découvrabilité

    Une fois que les bots peuvent accéder à votre site, votre sitemap et la structure des liens déterminent quelles pages ils trouvent réellement

  • Validateur de Schema

    Le balisage Schema aide les crawlers IA à interpréter les pages accessibles — y compris les annotations paywalledContent pour les modèles hybrides

  • Optimisation IA

    Le score parapluie qui combine accès des bots, schéma, structure et fraîcheur en un seul signal de préparation à l'IA

Les bots IA atteignent-ils réellement votre site ?

Lancez un GEO-Score Check gratuit pour voir si GPTBot, ClaudeBot et PerplexityBot peuvent lire vos pages. L'analyseur inspecte robots.txt, les codes de réponse serveur, le comportement du CDN et le contenu rendu en JavaScript — vous indiquant précisément quels crawlers IA sont autorisés et lesquels sont silencieusement bloqués.

Vérifier l'accès des bots IA gratuitement
Accès des bots IA : 5,6 M de sites bloquent GPTBot — n'en faites pas partie