¿Qué es robots.txt?
El archivo robots.txt es un simple archivo de texto que les dice a los bots y rastreadores qué partes de tu web pueden visitar. Piénsalo como un cartel a la entrada de tu sitio que dice "se admiten visitantes" o "área privada". Cada bot que sigue las reglas (llamadas Robots Exclusion Protocol) consulta este archivo primero antes de rastrear tu sitio.
Para los motores de búsqueda con IA, el robots.txt es especialmente importante. Controla si bots de IA como GPTBot (ChatGPT), ClaudeBot (Claude) y PerplexityBot pueden acceder a tu contenido para entrenamiento y resultados de búsqueda. Configurarlo correctamente te ayuda a gestionar tu acceso de bots de IA de forma eficaz.
Tu archivo robots.txt debe estar en tusitio.com/robots.txt. Los bots no lo buscarán en otra parte. Si no tienes este archivo, los bots asumen que pueden rastrearlo todo.
Por qué importa robots.txt para la IA
Los bots de IA son distintos de los rastreadores tradicionales de motores de búsqueda. Visitan tu sitio por dos razones principales:
Recopilación de datos de entrenamiento
Algunas empresas de IA usan contenido web para entrenar sus modelos de lenguaje. Rastrean millones de páginas para construir bases de conocimiento.
Puedes controlar si tu contenido se usa para entrenamiento bloqueando bots concretos en robots.txt.
Generación de resultados de búsqueda
Los motores de búsqueda con IA rastrean tu contenido para incluirlo en sus resultados de búsqueda y en la generación de respuestas.
Permitir estos bots ayuda a que tu contenido aparezca en respuestas generadas por IA, mejorando tu GEO-Score.
La clave es encontrar el equilibrio adecuado. Quieres que los motores de búsqueda con IA accedan a tu contenido para tener visibilidad, pero quizá quieras bloquear ciertas áreas o bots de entrenamiento concretos. Tu archivo robots.txt te da este control.
Principales user-agents de bots de IA
Cada bot de IA se identifica con una cadena de user-agent única. Aquí tienes los más importantes:
GPTBot
OpenAIUser-agent: GPTBot
Usado por: ChatGPT, funciones de búsqueda de OpenAI
GPTBot rastrea contenido tanto para las respuestas de ChatGPT como para entrenamiento. Bloquearlo evita que tu contenido aparezca en los resultados de búsqueda web de ChatGPT.
ClaudeBot
AnthropicUser-agent: ClaudeBot
Usado por: Claude AI, asistente de IA de Anthropic
ClaudeBot accede al contenido web para proporcionar información actual en las respuestas de Claude. Respeta estrictamente las reglas de robots.txt.
PerplexityBot
PerplexityUser-agent: PerplexityBot
Usado por: Motor de búsqueda Perplexity AI
PerplexityBot impulsa uno de los motores de búsqueda con IA más populares. Permitirlo mejora la visibilidad en los resultados de búsqueda de Perplexity.
Google-Extended
GoogleUser-agent: Google-Extended
Usado por: Entrenamiento de Google Gemini AI
Esto es distinto de Googlebot. Google-Extended recopila datos para entrenar Gemini. Bloquearlo no afecta a la indexación normal de Google Search.
FacebookBot
MetaUser-agent: FacebookBot
Usado por: Meta AI, previsualizaciones de enlaces de Facebook
FacebookBot rastrea para previsualizaciones de enlaces y las funciones de IA de Meta. Es importante para la visibilidad en redes sociales.
Para una lista completa de user-agents de bots de IA con detalles técnicos, consulta nuestra Referencia de user-agents de bots de IA.
Sintaxis básica de robots.txt
El archivo robots.txt usa una sintaxis sencilla con solo unos pocos comandos:
User-agent
Especifica a qué bot se aplican las siguientes reglas. Usa * para todos los bots.
User-agent: GPTBot User-agent: *
Disallow
Le dice a los bots que NO accedan a rutas concretas. Usa / para bloquear todo.
Disallow: /admin/ Disallow: /private/ Disallow: /
Allow
Le dice a los bots que SÍ pueden acceder a rutas concretas. Úsalo para anular una regla Disallow más amplia.
Disallow: /admin/ Allow: /admin/public/
Crawl-delay
Establece un retraso en segundos entre solicitudes del bot. No todos los bots lo soportan.
Crawl-delay: 10
Sitemap
Apunta a los bots a tu sitemap XML para una mejor eficiencia de rastreo.
Sitemap: https://yoursite.com/sitemap.xml
Configuraciones comunes de robots.txt
Aquí tienes configuraciones listas para usar para escenarios comunes:
Permitir todos los bots de IA (recomendado para la mayoría de los sitios)
Esta configuración da la bienvenida a todos los motores de búsqueda con IA mientras protege las áreas de admin:
# Allow all AI bots to crawl User-agent: * Allow: / # Block private areas for all bots Disallow: /admin/ Disallow: /api/ Disallow: /login/ Disallow: /dashboard/ # Sitemap location Sitemap: https://yoursite.com/sitemap.xml
Bloquear entrenamiento de IA, permitir búsqueda con IA
Bloquea los bots usados para entrenar modelos de IA mientras permite los bots de búsqueda:
# Block training bots User-agent: GPTBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: CCBot Disallow: / # Allow search bots User-agent: PerplexityBot Allow: / User-agent: ClaudeBot Allow: / # Default rules for other bots User-agent: * Allow: / Disallow: /admin/ Sitemap: https://yoursite.com/sitemap.xml
Acceso selectivo al contenido
Permite que los bots de IA accedan al contenido del blog pero no a las páginas de producto:
# AI bots can access blog User-agent: GPTBot Allow: /blog/ Disallow: / User-agent: ClaudeBot Allow: /blog/ Disallow: / # Default rules User-agent: * Allow: / Sitemap: https://yoursite.com/sitemap.xml
Bloquear todos los bots de IA
Si quieres excluirte por completo de la búsqueda con IA (no recomendado para visibilidad):
# Block all known AI bots User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: PerplexityBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: FacebookBot Disallow: / User-agent: CCBot Disallow: / # Allow traditional search engines User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / Sitemap: https://yoursite.com/sitemap.xml
Mejores prácticas
Haz esto
✓Coloca robots.txt en tu directorio raíz
✓Usa una regla por línea
✓Incluye la ubicación de tu sitemap
✓Prueba tu robots.txt tras los cambios
✓Permite los bots de IA para una mejor visibilidad GEO
✓Mantén el archivo por debajo de 500 KB
Evita esto
✗Usar robots.txt como medida de seguridad
✗Bloquear todos los bots sin razón
✗Usar expresiones regulares (no soportadas)
✗Olvidarte de actualizar tras cambios en el sitio
✗Bloquear CSS/JS necesarios para renderizar la página
✗Crear varios archivos robots.txt
Probar tu robots.txt
Prueba siempre tu archivo robots.txt antes de desplegarlo. Usa estos métodos:
Pruebas manuales
Visita tusitio.com/robots.txt en tu navegador para verificar:
- El archivo es accesible y se carga correctamente
- No hay errores de sintaxis ni erratas
- Todos los nombres de user-agent están bien escritos
- Las rutas coinciden con la estructura real de tu sitio
Google Search Console
Usa la herramienta robots.txt Tester de Google:
- Ve a Google Search Console
- Navega a Crawl → robots.txt Tester
- Prueba URLs específicas contra tus reglas
- Comprueba errores y advertencias
Validadores online
Usa validadores de robots.txt de terceros:
- Robots.txt Checker: Comprueba la sintaxis y la cobertura
- Bloffee GEO Analyzer: Valida robots.txt como parte del análisis completo del sitio
- Herramientas SEO: Muchas plataformas SEO incluyen pruebas de robots.txt
Monitorización de logs del servidor
Comprueba los logs de tu servidor para verificar el comportamiento de los bots:
- Busca cadenas de user-agent de bots de IA en los logs de acceso
- Verifica que los bots respetan tus reglas
- Identifica cualquier rastreo no autorizado
- Monitorea la frecuencia y los patrones de rastreo
Configuraciones avanzadas
Rate limiting con Crawl-delay
Controla la velocidad a la que los bots rastrean tu sitio para reducir la carga del servidor:
User-agent: GPTBot Crawl-delay: 10 Allow: / User-agent: ClaudeBot Crawl-delay: 5 Allow: /
Nota: no todos los bots soportan crawl-delay. Es más fiable usar rate limiting en el servidor.
Patrones con wildcards
Usa wildcards para coincidir con múltiples rutas (soportado por la mayoría de bots modernos):
User-agent: * # Block all PDF files Disallow: /*.pdf$ # Block all URLs with query parameters Disallow: /*? # Block all admin pages Disallow: /*/admin/
Múltiples sitemaps
Lista varios sitemaps para distintos tipos de contenido:
Sitemap: https://yoursite.com/sitemap-pages.xml Sitemap: https://yoursite.com/sitemap-blog.xml Sitemap: https://yoursite.com/sitemap-products.xml Sitemap: https://yoursite.com/sitemap-images.xml
Consejos rápidos sobre robots.txt
- •Empieza permitiendo todos los bots de búsqueda con IA para máxima visibilidad
- •Bloquea solo bots concretos si tienes una razón sólida
- •Incluye siempre la ubicación de tu sitemap
- •Prueba los cambios antes de desplegar a producción
- •Monitorea el acceso de bots en los logs de tu servidor
- •Actualiza robots.txt cuando cambies la estructura del sitio
- •Recuerda: robots.txt no es una medida de seguridad
Impacto en tu GEO-Score
Tu configuración de robots.txt afecta directamente a tu puntuación de Acceso de bots de IA, que es un componente clave de tu GEO-Score global.
Bloffee comprueba en tu robots.txt:
- Si los bots de IA pueden acceder a tu contenido
- Sintaxis y formato adecuados
- Bloqueo accidental de páginas importantes
- Declaración del sitemap
- Reglas excesivamente restrictivas que perjudican la visibilidad
Un robots.txt bien configurado que da la bienvenida a los bots de IA puede mejorar tu GEO-Score en 10-15 puntos. Bloquear bots importantes puede reducir tu puntuación en 20-30 puntos o más.
¿Listo para generar tu robots.txt?
Usa nuestro generador gratuito de robots.txt para crear una configuración optimizada para IA en segundos. Configura más de 40 bots con un clic.
Temas relacionados
- Referencia de user-agents de bots de IA
Lista completa de user-agents de bots de IA con detalles técnicos
- Acceso de bots de IA
Aprende cómo el acceso de los bots afecta a tu GEO-Score
- Guía completa de Meta Tags
Configura los meta tags robots para un control adicional de los bots
- Generador gratuito de robots.txt
Genera un archivo robots.txt optimizado para IA en segundos