¿Qué es el acceso de bots de IA?
El acceso de bots de IA mide si los crawlers de IA — GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot, ChatGPT-User y otros — pueden realmente alcanzar y leer tus páginas. La verificación analiza cuatro capas: directivas en robots.txt, códigos de respuesta del servidor, bloqueo basado en IP desde CDNs y WAFs, y si el contenido está bloqueado detrás de JavaScript o muros de pago. Cada capa puede matar silenciosamente la visibilidad en IA, y muchos sitios están bloqueados en una o más sin darse cuenta.
Esta métrica es la guardiana de todo el GEO-Score. Una puntuación perfecta de 100/100 en schema, citas, frescura y estructura ofrece exactamente cero citas de IA si una sola línea Disallow en robots.txt o una regla WAF por defecto rechaza a los crawlers. Cloudflare reportó en julio de 2025 que su red ahora bloquea crawlers de IA por defecto para nuevos clientes — lo que significa que una porción significativa de la web se oscureció para la IA de la noche a la mañana.
Por qué importa el acceso de bots de IA
La búsqueda con IA es ahora una porción medible del tráfico web total, pero también es la fuente de tráfico más frágil — una sola regla mal configurada puede borrar tu presencia de ChatGPT, Claude y Perplexity simultáneamente. Tres fuerzas explican por qué el acceso de bots merece atención antes que cualquier otro trabajo GEO.
El acceso de bots es un filtro binario
Los crawlers de IA no indexan parcialmente un sitio bloqueado — lo omiten por completo. Si GPTBot, ClaudeBot o PerplexityBot recibe un 403, un Disallow en robots.txt o un desafío WAF, la página es tratada como inexistente para las respuestas de IA. No existe un resultado de "visibilidad reducida": es elegibilidad total para citas o ninguna en absoluto.
La mayoría de los bloqueos son accidentales
Originality.ai encontró que GPTBot está ahora bloqueado por el 35,7% de los 1.000 sitios web principales, pero entrevistas con propietarios de sitios muestran que muchos de esos bloqueos fueron heredados de conjuntos de reglas WAF por defecto, plantillas robots.txt copiadas y pegadas, o modos de bot-fight de CDN que clasifican a GPTBot como un scraper genérico. Pocos de estos propietarios se propusieron bloquear la IA; simplemente olvidaron permitirla.
Los crawlers de IA son agresivos — pero selectivos
Cloudflare reportó que GPTBot creció un 305% en solicitudes brutas entre mayo de 2024 y mayo de 2025, mientras que PerplexityBot creció un 157.490% desde una base pequeña. Ese volumen viene con un presupuesto: los bots priorizan sitios que responden rápido, devuelven 200s y sirven contenido en HTML inicial. Los sitios que ocasionalmente devuelven 5xx, ocultan contenido detrás de JavaScript o limitan la tasa de los bots de IA ven caer las citas incluso sin un bloqueo explícito.
Lo que dice la investigación
GPTBot increased its share of all crawler traffic from 2.2% to 7.7%, with a 305% rise in raw requests over 12 months — jumping from rank #9 to rank #3 among all web crawlers. PerplexityBot showed the most explosive growth at 157,490% from a minimal baseline. Yet only 14% of analyzed domains had any specific robots.txt directives targeting AI bots — leaving the other 86% silently allowing or blocking AI traffic by accident.
João Tomé, Jorge Pacheco, Carlos Azevedo — From Googlebot to GPTBot: Who's Crawling Your Site in 2025, Cloudflare Blog, July 2025 — analysis of 3,816 top domains
GPTBot is now blocked by 35.7% of the top 1,000 websites, up from just 5% when it was first introduced in August 2023. The percentage of sites blocking GPTBot was increasing by approximately 5% per week in the early stages following the bot's announcement. Many of these blocks were inherited from default templates and CDN rules rather than deliberate policy decisions.
Originality.ai — GPTBot Blocking Tracker, August 2024 update — quarterly study of the Quantcast top 1,000 websites since GPTBot launch
Anthropic's crawl-to-referral ratio peaked near 500,000:1 early in 2025 before settling between 25,000:1 and 100,000:1, while OpenAI's GPTBot ratio spiked to roughly 3,700:1 in March 2025. This imbalance — bots taking far more than they return in human visits — is the main reason publishers are tempted to block, but for any site that is not a major news brand, blocking removes the only path to AI search citations entirely.
Cloudflare Radar — The crawl-to-click gap: AI bots, training, and referrals, 2025 — multi-month analysis of crawler-to-human-referral ratios across the Cloudflare network
3 escenarios reales de acceso de bots
Estos tres patrones muestran cómo el mismo contenido puede ser invisible o totalmente citable para la IA dependiendo de unas pocas líneas de configuración. Cada caso "malo" es un patrón real observado en auditorías — la versión "buena" es la corrección mínima que mantiene el contenido protegido donde debe estarlo, mientras permite que los bots de IA pasen en todos los demás casos.
Ejemplo 1: Sitio de noticias regional con robots.txt por defecto
Un editor de noticias regional usa una plantilla de CMS que viene con un robots.txt que contiene User-agent: GPTBot / Disallow: / y User-agent: ClaudeBot / Disallow: /. El equipo editorial no es consciente de que estas líneas existen. El sitio tiene alto E-E-A-T, artículos actualizados diariamente y buen schema, pero en 18 meses ChatGPT y Claude nunca han citado un solo artículo. Los logs del servidor confirman que GPTBot golpea /robots.txt cada pocas horas y se va.
Por qué falla: El Disallow en la ruta raíz le dice a GPTBot y ClaudeBot que omitan todo el dominio. Ambos bots respetan robots.txt, por lo que toda la inversión editorial produce cero citas de IA. El editor no puede entender por qué los competidores con contenido más débil son citados a diario — hasta que alguien lee el robots.txt.
El editor reescribe robots.txt a: User-agent: GPTBot / Allow: / / User-agent: OAI-SearchBot / Allow: / / User-agent: ChatGPT-User / Allow: / / User-agent: ClaudeBot / Allow: / / User-agent: PerplexityBot / Allow: / / Sitemap: https://news.example.com/sitemap.xml. Los logs del servidor se muestrean semanalmente para confirmar respuestas 200 y rastrear la frecuencia de crawl por bot. En cuatro semanas, ChatGPT search comienza a citar artículos recientes por nombre.
Por qué funciona: Las reglas Allow explícitas anulan cualquier valor por defecto heredado de plantillas y señalan la intención a cada crawler de IA. Listar tanto bots de entrenamiento (GPTBot, ClaudeBot) como bots de búsqueda en tiempo real (OAI-SearchBot, ChatGPT-User) cubre tanto las citas de datos de entrenamiento como las búsquedas de respuestas en vivo. La línea de sitemap le dice a los crawlers exactamente qué URLs priorizar — para que los nuevos artículos aparezcan en respuestas de IA en días, no meses.
Ejemplo 2: Marca de e-commerce detrás de un WAF por defecto
Una marca de e-commerce de tamaño medio en Cloudflare tiene un robots.txt limpio que permite todos los bots de IA. Pero su WAF tiene "Block AI bots" habilitado en Super Bot Fight Mode y una regla personalizada que bloquea cualquier user-agent que contenga "bot" que no sea Googlebot o Bingbot. Los crawlers de IA reciben respuestas 403 Forbidden en cada solicitud. Los listados de productos, las guías de compra y las páginas de categoría nunca entran en datos de entrenamiento de IA o índices de búsqueda en vivo.
Por qué falla: Robots.txt es honesto, pero el WAF se ejecuta primero. La documentación de Cloudflare establece explícitamente que la regla de bloqueo de bots de IA tiene prioridad sobre Allow Verified Bots — por lo que incluso los crawlers de IA que Cloudflare ha verificado por IP son bloqueados. La marca ve cero referrals de ChatGPT o Perplexity a pesar de que sus puntuaciones de calidad de contenido son excelentes.
La marca desactiva el toggle general "Block AI bots" y en su lugar crea una lista de permisos en Cloudflare AI Crawl Control para GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, PerplexityBot y Google-Extended. La regla personalizada del WAF se reescribe para desafiar a los bots no verificados mientras deja pasar a los crawlers de IA verificados. Una revisión mensual verifica los logs de crawl de IA, y cualquier nuevo bot de IA comercialmente relevante se añade a la lista de permisos en 7 días.
Por qué funciona: Los bots de IA verificados llegan desde rangos de IP publicados que Cloudflare autentica — la lista de permisos confía en la identidad del bot, no solo en la cadena de user-agent (que los scrapers pueden falsificar). La marca mantiene su protección contra scrapers maliciosos mientras abre la puerta a cada motor de búsqueda con IA que puede generar compras. En un trimestre, la marca comienza a aparecer en respuestas de compras de ChatGPT para consultas con intención de compra.
Ejemplo 3: Editor por suscripción con muro de pago duro
Una publicación B2B por suscripción muestra un avance de 50 palabras y luego un modal de inicio de sesión a página completa, servido vía JavaScript al cargar la página. Los crawlers de IA, incluyendo GPTBot, no ejecutan JavaScript, por lo que ven el avance más el HTML del modal. Los artículos nunca son entrenados, y en el momento de la búsqueda los motores de búsqueda con IA no tienen nada que citar — recurren a fuentes de la competencia que escriben sobre los mismos temas en abierto. El crecimiento de suscripciones se ralentiza porque la marca nunca aparece en respuestas de IA donde los tomadores de decisiones investigan proveedores.
Por qué falla: Los crawlers de IA solo obtienen HTML sin procesar. Un muro de pago inyectado por JavaScript es invisible para los humanos (carga después) pero bloquea completamente a la IA — solo ven el avance de 50 palabras. No hay camino para que la pericia del editor entre en datos de entrenamiento de IA o pipelines de respuestas en vivo, a pesar de que la calidad editorial es la más alta de la industria.
El editor introduce un "resumen ejecutivo" de 250 palabras renderizado en HTML inicial para cada artículo: el hallazgo clave, el dato, la recomendación y la fuente. El análisis profundo completo permanece tras el muro de pago. Robots.txt permite GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot y Google-Extended. El marcado Schema.org Article con anotación paywalledContent le dice a los crawlers qué secciones requieren suscripción, mientras que la sección de resumen es libremente indexable.
Por qué funciona: Los crawlers de IA ahora tienen contenido sustantivo y citable para cada artículo — el resumen es lo suficientemente largo para ser una respuesta completa (según la investigación de Answer Completeness, los pasajes independientes de 200 palabras son ideales). Cuando un tomador de decisiones le pregunta a ChatGPT "quién es la fuente líder en X", el resumen del editor es citado y el clic al informe completo convierte. El muro de pago protege los ingresos por suscripción mientras la IA se convierte en un canal de adquisición de la parte alta del embudo.
Cómo mejorar tu puntuación de acceso de bots de IA
NO hagas esto
- ✗Usar User-agent: * / Disallow: / o cualquier bloqueo global en robots.txt — esto mata el acceso de IA para cada crawler en una línea, incluyendo los que quieres
- ✗Dejar habilitados los toggles "Block AI bots" por defecto del WAF sin revisar — Cloudflare y otros CDNs cada vez vienen con bloqueo de IA activado por defecto, incluso para bots verificados
- ✗Bloquear solo por cadena de user-agent — los scrapers falsifican "GPTBot" fácilmente, y los bots legítimos pueden ser suplantados; verifica por rango de IP o usa listas de bots verificados por CDN en su lugar
- ✗Bloquear el contenido principal detrás de componentes renderizados por JavaScript o rutas de aplicación de página única — GPTBot, ClaudeBot y PerplexityBot no ejecutan JavaScript y solo verán el shell HTML inicial
- ✗Saltarse la monitorización de logs del servidor para bots de IA — sin verificaciones semanales de hits de GPTBot, ClaudeBot y PerplexityBot, los bloqueos accidentales pueden persistir durante meses antes de que alguien note el tráfico de IA faltante
Haz esto en su lugar
- ✓Añade User-agent: GPTBot / Allow: / explícito, más equivalentes para ClaudeBot, PerplexityBot, OAI-SearchBot, ChatGPT-User, Google-Extended y Applebot-Extended en robots.txt
- ✓Pon en lista blanca a bots de IA verificados en tu WAF usando sus rangos de IP publicados — Cloudflare AI Crawl Control, Vercel AI Bot Manager y Akamai exponen esto
- ✓Renderiza en el servidor o pre-renderiza las primeras 200-500 palabras de cada página importante para que los crawlers de IA vean contenido sustantivo en la respuesta HTML inicial
- ✓Muestrea los logs del servidor semanalmente para hits de GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot y Google-Extended — confirma respuestas 200, tiempo de respuesta promedio por debajo de 2 segundos y frecuencia de crawl estable
- ✓Si tienes un muro de pago, expón un resumen ejecutivo de 200-300 palabras en HTML y usa Schema.org paywalledContent para marcar las secciones protegidas — preserva los ingresos manteniendo la elegibilidad para citas de IA
Consejos rápidos para el acceso de bots de IA
- •Usa siempre reglas Allow explícitas por bot de IA — "User-agent: * / Allow: /" parece permisivo pero no señala intención y muchos WAFs lo anulan
- •Revisa el panel de tu CDN antes que robots.txt — el cambio de Cloudflare de julio de 2025 bloquea crawlers de IA por defecto para nuevos clientes, sin importar lo que diga tu robots.txt
- •Permite tanto bots de entrenamiento (GPTBot, ClaudeBot) como bots de búsqueda en tiempo real (OAI-SearchBot, ChatGPT-User, Claude-SearchBot, PerplexityBot) — sirven a diferentes partes del pipeline de respuestas de IA
- •No confíes en llms.txt como tu mecanismo principal de acceso — a finales de 2025 ningún crawler de IA importante lo lee; robots.txt sigue siendo el único estándar universalmente respetado
- •Renderiza contenido crítico en el servidor o vía SSG — solo Googlebot ejecuta JavaScript de forma fiable entre los crawlers principales, por lo que el contenido solo en JS es invisible para GPTBot, ClaudeBot y PerplexityBot
- •Muestrea tus logs de acceso semanalmente para las cadenas de user-agent de IA — una caída repentina a cero es la señal más temprana de un bloqueo accidental por una actualización de CDN o cambio de regla WAF
Preguntas frecuentes
¿Debería bloquear GPTBot para proteger mi contenido del entrenamiento de IA?
¿Cuál es el impacto de permitir bots de IA en mi GEO-Score?
¿Cuál es la diferencia entre GPTBot, ChatGPT-User y OAI-SearchBot?
¿Bloquear Google-Extended afecta mis rankings de Google Search?
¿Por qué los bots de IA rastrean tanto mi sitio sin enviar tráfico de vuelta?
¿Debería implementar un archivo llms.txt junto a robots.txt?
Métricas relacionadas para explorar
- Velocidad de página
Las respuestas lentas hacen que los crawlers de IA agoten el tiempo de espera — la velocidad de página convierte el acceso de "permitido" en "realmente rastreable"
- Sitemap y descubribilidad
Una vez que los bots pueden acceder a tu sitio, tu sitemap y estructura de enlaces determinan qué páginas encuentran realmente
- Validador de schema
El marcado de schema ayuda a los crawlers de IA a interpretar páginas accesibles — incluyendo anotaciones paywalledContent para modelos híbridos
- Optimización para IA
La puntuación general que combina acceso de bots, schema, estructura y frescura en una sola señal de preparación para IA