Volver al centro de aprendizaje

robots.txt para bots de IA

Controla qué motores de IA pueden acceder a tu contenido

Última actualización: 10 de noviembre de 2025

¿Qué es robots.txt?

El archivo robots.txt es un simple archivo de texto que les dice a los bots y rastreadores qué partes de tu web pueden visitar. Piénsalo como un cartel a la entrada de tu sitio que dice "se admiten visitantes" o "área privada". Cada bot que sigue las reglas (llamadas Robots Exclusion Protocol) consulta este archivo primero antes de rastrear tu sitio.

Para los motores de búsqueda con IA, el robots.txt es especialmente importante. Controla si bots de IA como GPTBot (ChatGPT), ClaudeBot (Claude) y PerplexityBot pueden acceder a tu contenido para entrenamiento y resultados de búsqueda. Configurarlo correctamente te ayuda a gestionar tu acceso de bots de IA de forma eficaz.

Tu archivo robots.txt debe estar en tusitio.com/robots.txt. Los bots no lo buscarán en otra parte. Si no tienes este archivo, los bots asumen que pueden rastrearlo todo.

Por qué importa robots.txt para la IA

Los bots de IA son distintos de los rastreadores tradicionales de motores de búsqueda. Visitan tu sitio por dos razones principales:

Recopilación de datos de entrenamiento

Algunas empresas de IA usan contenido web para entrenar sus modelos de lenguaje. Rastrean millones de páginas para construir bases de conocimiento.

Puedes controlar si tu contenido se usa para entrenamiento bloqueando bots concretos en robots.txt.

Generación de resultados de búsqueda

Los motores de búsqueda con IA rastrean tu contenido para incluirlo en sus resultados de búsqueda y en la generación de respuestas.

Permitir estos bots ayuda a que tu contenido aparezca en respuestas generadas por IA, mejorando tu GEO-Score.

La clave es encontrar el equilibrio adecuado. Quieres que los motores de búsqueda con IA accedan a tu contenido para tener visibilidad, pero quizá quieras bloquear ciertas áreas o bots de entrenamiento concretos. Tu archivo robots.txt te da este control.

Principales user-agents de bots de IA

Cada bot de IA se identifica con una cadena de user-agent única. Aquí tienes los más importantes:

GPTBot

OpenAI

User-agent: GPTBot

Usado por: ChatGPT, funciones de búsqueda de OpenAI

GPTBot rastrea contenido tanto para las respuestas de ChatGPT como para entrenamiento. Bloquearlo evita que tu contenido aparezca en los resultados de búsqueda web de ChatGPT.

ClaudeBot

Anthropic

User-agent: ClaudeBot

Usado por: Claude AI, asistente de IA de Anthropic

ClaudeBot accede al contenido web para proporcionar información actual en las respuestas de Claude. Respeta estrictamente las reglas de robots.txt.

PerplexityBot

Perplexity

User-agent: PerplexityBot

Usado por: Motor de búsqueda Perplexity AI

PerplexityBot impulsa uno de los motores de búsqueda con IA más populares. Permitirlo mejora la visibilidad en los resultados de búsqueda de Perplexity.

Google-Extended

Google

User-agent: Google-Extended

Usado por: Entrenamiento de Google Gemini AI

Esto es distinto de Googlebot. Google-Extended recopila datos para entrenar Gemini. Bloquearlo no afecta a la indexación normal de Google Search.

FacebookBot

Meta

User-agent: FacebookBot

Usado por: Meta AI, previsualizaciones de enlaces de Facebook

FacebookBot rastrea para previsualizaciones de enlaces y las funciones de IA de Meta. Es importante para la visibilidad en redes sociales.

Para una lista completa de user-agents de bots de IA con detalles técnicos, consulta nuestra Referencia de user-agents de bots de IA.

Sintaxis básica de robots.txt

El archivo robots.txt usa una sintaxis sencilla con solo unos pocos comandos:

User-agent

Especifica a qué bot se aplican las siguientes reglas. Usa * para todos los bots.

User-agent: GPTBot
User-agent: *

Disallow

Le dice a los bots que NO accedan a rutas concretas. Usa / para bloquear todo.

Disallow: /admin/
Disallow: /private/
Disallow: /

Allow

Le dice a los bots que SÍ pueden acceder a rutas concretas. Úsalo para anular una regla Disallow más amplia.

Disallow: /admin/
Allow: /admin/public/

Crawl-delay

Establece un retraso en segundos entre solicitudes del bot. No todos los bots lo soportan.

Crawl-delay: 10

Sitemap

Apunta a los bots a tu sitemap XML para una mejor eficiencia de rastreo.

Sitemap: https://yoursite.com/sitemap.xml

Configuraciones comunes de robots.txt

Aquí tienes configuraciones listas para usar para escenarios comunes:

Permitir todos los bots de IA (recomendado para la mayoría de los sitios)

Esta configuración da la bienvenida a todos los motores de búsqueda con IA mientras protege las áreas de admin:

# Allow all AI bots to crawl
User-agent: *
Allow: /

# Block private areas for all bots
Disallow: /admin/
Disallow: /api/
Disallow: /login/
Disallow: /dashboard/

# Sitemap location
Sitemap: https://yoursite.com/sitemap.xml

Bloquear entrenamiento de IA, permitir búsqueda con IA

Bloquea los bots usados para entrenar modelos de IA mientras permite los bots de búsqueda:

# Block training bots
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

# Allow search bots
User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

# Default rules for other bots
User-agent: *
Allow: /
Disallow: /admin/

Sitemap: https://yoursite.com/sitemap.xml

Acceso selectivo al contenido

Permite que los bots de IA accedan al contenido del blog pero no a las páginas de producto:

# AI bots can access blog
User-agent: GPTBot
Allow: /blog/
Disallow: /

User-agent: ClaudeBot
Allow: /blog/
Disallow: /

# Default rules
User-agent: *
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

Bloquear todos los bots de IA

Si quieres excluirte por completo de la búsqueda con IA (no recomendado para visibilidad):

# Block all known AI bots
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: CCBot
Disallow: /

# Allow traditional search engines
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

Mejores prácticas

Haz esto

Coloca robots.txt en tu directorio raíz

Usa una regla por línea

Incluye la ubicación de tu sitemap

Prueba tu robots.txt tras los cambios

Permite los bots de IA para una mejor visibilidad GEO

Mantén el archivo por debajo de 500 KB

Evita esto

Usar robots.txt como medida de seguridad

Bloquear todos los bots sin razón

Usar expresiones regulares (no soportadas)

Olvidarte de actualizar tras cambios en el sitio

Bloquear CSS/JS necesarios para renderizar la página

Crear varios archivos robots.txt

Probar tu robots.txt

Prueba siempre tu archivo robots.txt antes de desplegarlo. Usa estos métodos:

Pruebas manuales

Visita tusitio.com/robots.txt en tu navegador para verificar:

  • El archivo es accesible y se carga correctamente
  • No hay errores de sintaxis ni erratas
  • Todos los nombres de user-agent están bien escritos
  • Las rutas coinciden con la estructura real de tu sitio

Google Search Console

Usa la herramienta robots.txt Tester de Google:

  • Ve a Google Search Console
  • Navega a Crawl → robots.txt Tester
  • Prueba URLs específicas contra tus reglas
  • Comprueba errores y advertencias

Validadores online

Usa validadores de robots.txt de terceros:

  • Robots.txt Checker: Comprueba la sintaxis y la cobertura
  • Bloffee GEO Analyzer: Valida robots.txt como parte del análisis completo del sitio
  • Herramientas SEO: Muchas plataformas SEO incluyen pruebas de robots.txt

Monitorización de logs del servidor

Comprueba los logs de tu servidor para verificar el comportamiento de los bots:

  • Busca cadenas de user-agent de bots de IA en los logs de acceso
  • Verifica que los bots respetan tus reglas
  • Identifica cualquier rastreo no autorizado
  • Monitorea la frecuencia y los patrones de rastreo

Configuraciones avanzadas

Rate limiting con Crawl-delay

Controla la velocidad a la que los bots rastrean tu sitio para reducir la carga del servidor:

User-agent: GPTBot
Crawl-delay: 10
Allow: /

User-agent: ClaudeBot
Crawl-delay: 5
Allow: /

Nota: no todos los bots soportan crawl-delay. Es más fiable usar rate limiting en el servidor.

Patrones con wildcards

Usa wildcards para coincidir con múltiples rutas (soportado por la mayoría de bots modernos):

User-agent: *
# Block all PDF files
Disallow: /*.pdf$

# Block all URLs with query parameters
Disallow: /*?

# Block all admin pages
Disallow: /*/admin/

Múltiples sitemaps

Lista varios sitemaps para distintos tipos de contenido:

Sitemap: https://yoursite.com/sitemap-pages.xml
Sitemap: https://yoursite.com/sitemap-blog.xml
Sitemap: https://yoursite.com/sitemap-products.xml
Sitemap: https://yoursite.com/sitemap-images.xml

Consejos rápidos sobre robots.txt

  • Empieza permitiendo todos los bots de búsqueda con IA para máxima visibilidad
  • Bloquea solo bots concretos si tienes una razón sólida
  • Incluye siempre la ubicación de tu sitemap
  • Prueba los cambios antes de desplegar a producción
  • Monitorea el acceso de bots en los logs de tu servidor
  • Actualiza robots.txt cuando cambies la estructura del sitio
  • Recuerda: robots.txt no es una medida de seguridad

Impacto en tu GEO-Score

Tu configuración de robots.txt afecta directamente a tu puntuación de Acceso de bots de IA, que es un componente clave de tu GEO-Score global.

Bloffee comprueba en tu robots.txt:

  • Si los bots de IA pueden acceder a tu contenido
  • Sintaxis y formato adecuados
  • Bloqueo accidental de páginas importantes
  • Declaración del sitemap
  • Reglas excesivamente restrictivas que perjudican la visibilidad

Un robots.txt bien configurado que da la bienvenida a los bots de IA puede mejorar tu GEO-Score en 10-15 puntos. Bloquear bots importantes puede reducir tu puntuación en 20-30 puntos o más.

¿Listo para generar tu robots.txt?

Usa nuestro generador gratuito de robots.txt para crear una configuración optimizada para IA en segundos. Configura más de 40 bots con un clic.

Generar robots.txt

Temas relacionados

robots.txt para bots de IA: guía completa de configuración