O que é o robots.txt?
O arquivo robots.txt é um arquivo de texto simples que informa aos bots e crawlers quais partes do seu site eles podem visitar. Pense nele como uma placa na entrada do seu site dizendo "visitantes bem-vindos" ou "área privada". Todo bot que segue as regras (chamadas de Robots Exclusion Protocol) verifica este arquivo primeiro antes de rastrear seu site.
Para buscadores com IA, o robots.txt é especialmente importante. Ele controla se bots de IA como GPTBot (ChatGPT), ClaudeBot (Claude) e PerplexityBot podem acessar seu conteúdo para treinamento e resultados de busca. Configurar isso corretamente ajuda você a gerenciar seu acesso de bots de IA de forma eficaz.
Seu arquivo robots.txt deve estar localizado em seusite.com/robots.txt. Os bots não procurarão por ele em outro lugar. Se você não tiver este arquivo, os bots assumem que podem rastrear tudo.
Por que o robots.txt Importa para a IA
Bots de IA são diferentes dos crawlers de mecanismos de busca tradicionais. Eles visitam seu site por dois motivos principais:
Coleta de Dados de Treinamento
Algumas empresas de IA usam conteúdo da web para treinar seus modelos de linguagem. Elas rastreiam milhões de páginas para construir bases de conhecimento.
Você pode controlar se seu conteúdo é usado para treinamento bloqueando bots específicos no robots.txt.
Geração de Resultados de Busca
Buscadores com IA rastreiam seu conteúdo para incluí-lo em seus resultados de busca e geração de respostas.
Permitir esses bots ajuda seu conteúdo a aparecer em respostas geradas por IA, melhorando seu GEO-Score.
A chave é encontrar o equilíbrio certo. Você quer que buscadores com IA acessem seu conteúdo para visibilidade, mas pode querer bloquear certas áreas ou bots de treinamento específicos. Seu arquivo robots.txt lhe dá esse controle.
Principais User-Agents de Bots de IA
Cada bot de IA se identifica com uma string de user-agent única. Aqui estão os mais importantes:
GPTBot
OpenAIUser-agent: GPTBot
Usado por: ChatGPT, recursos de busca da OpenAI
GPTBot rastreia conteúdo tanto para respostas do ChatGPT quanto para treinamento. Bloqueá-lo impede que seu conteúdo apareça nos resultados de busca web do ChatGPT.
ClaudeBot
AnthropicUser-agent: ClaudeBot
Usado por: Claude AI, assistente de IA da Anthropic
ClaudeBot acessa conteúdo da web para fornecer informações atuais nas respostas do Claude. Ele respeita estritamente as regras do robots.txt.
PerplexityBot
PerplexityUser-agent: PerplexityBot
Usado por: Mecanismo de busca Perplexity AI
PerplexityBot alimenta um dos buscadores com IA mais populares. Permiti-lo melhora a visibilidade nos resultados de busca da Perplexity.
Google-Extended
GoogleUser-agent: Google-Extended
Usado por: Treinamento da IA Google Gemini
Isso é separado do Googlebot. Google-Extended coleta dados para treinar o Gemini. Bloqueá-lo não afeta a indexação normal da Google Search.
FacebookBot
MetaUser-agent: FacebookBot
Usado por: Meta AI, prévias de links do Facebook
FacebookBot rastreia para prévias de links e recursos de IA da Meta. É importante para visibilidade em redes sociais.
Para uma lista completa de user-agents de bots de IA com detalhes técnicos, veja nossa Referência de User-Agents de Bots de IA.
Sintaxe Básica do robots.txt
O arquivo robots.txt usa uma sintaxe simples com apenas alguns comandos:
User-agent
Especifica a qual bot as regras seguintes se aplicam. Use * para todos os bots.
User-agent: GPTBot User-agent: *
Disallow
Diz aos bots para NÃO acessar caminhos específicos. Use / para bloquear tudo.
Disallow: /admin/ Disallow: /private/ Disallow: /
Allow
Diz aos bots que PODEM acessar caminhos específicos. Use isto para sobrepor uma regra Disallow mais ampla.
Disallow: /admin/ Allow: /admin/public/
Crawl-delay
Define um atraso em segundos entre as requisições do bot. Não suportado por todos os bots.
Crawl-delay: 10
Sitemap
Aponta os bots para seu sitemap XML para melhor eficiência de rastreamento.
Sitemap: https://yoursite.com/sitemap.xml
Configurações Comuns do robots.txt
Aqui estão configurações prontas para usar em cenários comuns:
Permitir Todos os Bots de IA (Recomendado para a Maioria dos Sites)
Esta configuração dá as boas-vindas a todos os buscadores com IA enquanto protege áreas administrativas:
# Allow all AI bots to crawl User-agent: * Allow: / # Block private areas for all bots Disallow: /admin/ Disallow: /api/ Disallow: /login/ Disallow: /dashboard/ # Sitemap location Sitemap: https://yoursite.com/sitemap.xml
Bloquear Treinamento de IA, Permitir Busca com IA
Bloqueie bots usados para treinar modelos de IA enquanto permite bots de busca:
# Block training bots User-agent: GPTBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: CCBot Disallow: / # Allow search bots User-agent: PerplexityBot Allow: / User-agent: ClaudeBot Allow: / # Default rules for other bots User-agent: * Allow: / Disallow: /admin/ Sitemap: https://yoursite.com/sitemap.xml
Acesso Seletivo a Conteúdo
Permita que bots de IA acessem o conteúdo do blog mas não as páginas de produto:
# AI bots can access blog User-agent: GPTBot Allow: /blog/ Disallow: / User-agent: ClaudeBot Allow: /blog/ Disallow: / # Default rules User-agent: * Allow: / Sitemap: https://yoursite.com/sitemap.xml
Bloquear Todos os Bots de IA
Se você quer optar por sair completamente da busca com IA (não recomendado para visibilidade):
# Block all known AI bots User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: PerplexityBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: FacebookBot Disallow: / User-agent: CCBot Disallow: / # Allow traditional search engines User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / Sitemap: https://yoursite.com/sitemap.xml
Melhores Práticas
Faça Estes
✓Coloque o robots.txt no seu diretório raiz
✓Use uma regra por linha
✓Inclua a localização do seu sitemap
✓Teste seu robots.txt após mudanças
✓Permita bots de IA para melhor visibilidade GEO
✓Mantenha o arquivo abaixo de 500KB
Evite Estes
✗Usar robots.txt para segurança
✗Bloquear todos os bots sem motivo
✗Usar expressões regulares (não suportadas)
✗Esquecer de atualizar após mudanças no site
✗Bloquear CSS/JS necessários para renderização da página
✗Criar múltiplos arquivos robots.txt
Testando seu robots.txt
Sempre teste seu arquivo robots.txt antes de implantá-lo. Use estes métodos:
Teste Manual
Acesse seusite.com/robots.txt no seu navegador para verificar:
- O arquivo está acessível e carrega corretamente
- Não há erros de sintaxe ou erros de digitação
- Todos os nomes de user-agent estão escritos corretamente
- Os caminhos correspondem à estrutura real do seu site
Google Search Console
Use a ferramenta de Teste de robots.txt do Google:
- Vá ao Google Search Console
- Navegue até Rastreamento → Teste de robots.txt
- Teste URLs específicas contra suas regras
- Verifique erros e avisos
Validadores Online
Use validadores de robots.txt de terceiros:
- Robots.txt Checker: Verifica sintaxe e cobertura
- Bloffee GEO Analyzer: Valida robots.txt como parte de uma análise completa do site
- Ferramentas SEO: Muitas plataformas de SEO incluem teste de robots.txt
Monitoramento de Logs do Servidor
Verifique os logs do seu servidor para verificar o comportamento dos bots:
- Procure strings de user-agent de bots de IA nos logs de acesso
- Verifique se os bots estão respeitando suas regras
- Identifique qualquer rastreamento não autorizado
- Monitore frequência e padrões de rastreamento
Configurações Avançadas
Limitação de Taxa com Crawl-delay
Controle a velocidade com que os bots rastreiam seu site para reduzir a carga do servidor:
User-agent: GPTBot Crawl-delay: 10 Allow: / User-agent: ClaudeBot Crawl-delay: 5 Allow: /
Observação: Nem todos os bots suportam crawl-delay. É mais confiável usar limitação de taxa do lado do servidor.
Padrões com Wildcards
Use wildcards para corresponder a vários caminhos (suportado pela maioria dos bots modernos):
User-agent: * # Block all PDF files Disallow: /*.pdf$ # Block all URLs with query parameters Disallow: /*? # Block all admin pages Disallow: /*/admin/
Múltiplos Sitemaps
Liste vários sitemaps para diferentes tipos de conteúdo:
Sitemap: https://yoursite.com/sitemap-pages.xml Sitemap: https://yoursite.com/sitemap-blog.xml Sitemap: https://yoursite.com/sitemap-products.xml Sitemap: https://yoursite.com/sitemap-images.xml
Dicas Rápidas de robots.txt
- •Comece permitindo todos os bots de busca com IA para máxima visibilidade
- •Bloqueie apenas bots específicos se tiver um motivo forte
- •Sempre inclua a localização do seu sitemap
- •Teste mudanças antes de implantar em produção
- •Monitore o acesso dos bots nos logs do seu servidor
- •Atualize o robots.txt quando mudar a estrutura do site
- •Lembre-se: o robots.txt não é uma medida de segurança
Impacto no seu GEO-Score
Sua configuração do robots.txt afeta diretamente sua pontuação de Acesso de Bots de IA, que é um componente-chave do seu GEO-Score geral.
O Bloffee verifica seu robots.txt para:
- Se bots de IA podem acessar seu conteúdo
- Sintaxe e formatação adequadas
- Bloqueio acidental de páginas importantes
- Declaração de sitemap
- Regras excessivamente restritivas que prejudicam a visibilidade
Um robots.txt bem configurado que recebe bots de IA pode melhorar seu GEO-Score em 10-15 pontos. Bloquear bots importantes pode reduzir sua pontuação em 20-30 pontos ou mais.
Pronto para Gerar seu robots.txt?
Use nosso gerador gratuito de robots.txt para criar uma configuração otimizada para IA em segundos. Configure mais de 40 bots com um clique.
Tópicos Relacionados
- Referência de User-Agents de Bots de IA
Lista completa de user-agents de bots de IA com detalhes técnicos
- Acesso de Bots de IA
Aprenda como o acesso de bots afeta seu GEO-Score
- Guia Completo de Meta Tags
Configure meta tags de robots para controle adicional de bots
- Gerador Gratuito de robots.txt
Gere um arquivo robots.txt otimizado para IA em segundos