O Que é robots.txt?
O ficheiro robots.txt é um ficheiro de texto simples que informa bots e rastreadores quais partes do seu site podem visitar. Pense nele como um sinal na entrada do seu site que diz "visitantes bem-vindos" ou "área privada." Cada bot que segue as regras (chamado Protocolo de Exclusão de Robots) verifica este ficheiro primeiro antes de rastrear o seu site.
Para motores de pesquisa IA, robots.txt é especialmente importante. Controla se bots IA como GPTBot (ChatGPT), ClaudeBot (Claude) e PerplexityBot podem aceder ao seu conteúdo para treino e resultados de pesquisa. Configurar isto corretamente ajuda-o a gerir o seu acesso a bots IA eficazmente.
O seu ficheiro robots.txt tem de estar localizado em seusite.com/robots.txt. Os bots não procurarão por ele noutro lugar. Se não tiver este ficheiro, os bots assumem que podem rastrear tudo.
Por Que robots.txt Importa para IA
Os bots IA são diferentes dos rastreadores de motores de pesquisa tradicionais. Visitam o seu site por duas razões principais:
Recolha de Dados de Treino
Algumas empresas de IA usam conteúdo web para treinar os seus modelos de linguagem. Rastreiam milhões de páginas para construir bases de conhecimento.
Pode controlar se o seu conteúdo é usado para treino bloqueando bots específicos no robots.txt.
Geração de Resultados de Pesquisa
Os motores de pesquisa IA rastreiam o seu conteúdo para o incluir nos seus resultados de pesquisa e geração de respostas.
Permitir estes bots ajuda o seu conteúdo a aparecer em respostas geradas por IA, melhorando o seu GEO-Score.
A chave é encontrar o equilíbrio certo. Quer que os motores de pesquisa IA acedam ao seu conteúdo para visibilidade, mas pode querer bloquear certas áreas ou bots de treino específicos. O seu ficheiro robots.txt dá-lhe este controlo.
Principais User-Agents de Bots IA
Cada bot IA identifica-se com uma string user-agent única. Aqui estão os mais importantes:
GPTBot
OpenAIUser-agent: GPTBot
Usado por: ChatGPT, funcionalidades de pesquisa OpenAI
GPTBot rastreia conteúdo tanto para respostas ChatGPT como para treino. Bloqueá-lo impede que o seu conteúdo apareça nos resultados de pesquisa web do ChatGPT.
ClaudeBot
AnthropicUser-agent: ClaudeBot
Usado por: Claude AI, assistente IA da Anthropic
ClaudeBot acede a conteúdo web para fornecer informação atual nas respostas do Claude. Respeita regras robots.txt rigorosamente.
PerplexityBot
PerplexityUser-agent: PerplexityBot
Usado por: Motor de pesquisa Perplexity AI
PerplexityBot alimenta um dos motores de pesquisa IA mais populares. Permiti-lo melhora a visibilidade nos resultados de pesquisa Perplexity.
Google-Extended
GoogleUser-agent: Google-Extended
Usado por: Treino de Google Gemini AI
Isto é separado do Googlebot. Google-Extended recolhe dados para treinar Gemini. Bloqueá-lo não afeta indexação normal do Google Search.
FacebookBot
MetaUser-agent: FacebookBot
Usado por: Meta AI, pré-visualizações de links Facebook
FacebookBot rastreia para pré-visualizações de links e funcionalidades IA da Meta. É importante para visibilidade em redes sociais.
Para uma lista completa de user-agents de bots IA com detalhes técnicos, veja a nossa Referência de User-Agents de Bots IA.
Sintaxe Básica de robots.txt
O ficheiro robots.txt usa uma sintaxe simples com apenas alguns comandos:
User-agent
Especifica a que bot as regras seguintes se aplicam. Use * para todos os bots.
User-agent: GPTBot User-agent: *
Disallow
Diz aos bots para NÃO aceder a caminhos específicos. Use / para bloquear tudo.
Disallow: /admin/ Disallow: /private/ Disallow: /
Allow
Diz aos bots que PODEM aceder a caminhos específicos. Use isto para substituir uma regra Disallow mais ampla.
Disallow: /admin/ Allow: /admin/public/
Crawl-delay
Define um atraso em segundos entre pedidos de bots. Não suportado por todos os bots.
Crawl-delay: 10
Sitemap
Aponta bots para o seu sitemap XML para melhor eficiência de rastreamento.
Sitemap: https://yoursite.com/sitemap.xml
Configurações Comuns de robots.txt
Aqui estão configurações prontas a usar para cenários comuns:
Permitir Todos os Bots IA (Recomendado para a Maioria dos Sites)
Esta configuração dá as boas-vindas a todos os motores de pesquisa IA enquanto protege áreas de administração:
# Allow all AI bots to crawl User-agent: * Allow: / # Block private areas for all bots Disallow: /admin/ Disallow: /api/ Disallow: /login/ Disallow: /dashboard/ # Sitemap location Sitemap: https://yoursite.com/sitemap.xml
Bloquear Treino IA, Permitir Pesquisa IA
Bloqueie bots usados para treinar modelos IA enquanto permite bots de pesquisa:
# Block training bots User-agent: GPTBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: CCBot Disallow: / # Allow search bots User-agent: PerplexityBot Allow: / User-agent: ClaudeBot Allow: / # Default rules for other bots User-agent: * Allow: / Disallow: /admin/ Sitemap: https://yoursite.com/sitemap.xml
Acesso Seletivo a Conteúdo
Permita bots IA a aceder a conteúdo de blog mas não a páginas de produtos:
# AI bots can access blog User-agent: GPTBot Allow: /blog/ Disallow: / User-agent: ClaudeBot Allow: /blog/ Disallow: / # Default rules User-agent: * Allow: / Sitemap: https://yoursite.com/sitemap.xml
Bloquear Todos os Bots IA
Se quiser excluir-se completamente da pesquisa IA (não recomendado para visibilidade):
# Block all known AI bots User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: PerplexityBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: FacebookBot Disallow: / User-agent: CCBot Disallow: / # Allow traditional search engines User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / Sitemap: https://yoursite.com/sitemap.xml
Melhores Práticas
Fazer
✓Coloque robots.txt no seu diretório raiz
✓Use uma regra por linha
✓Inclua a localização do seu sitemap
✓Teste o seu robots.txt após mudanças
✓Permita bots IA para melhor visibilidade GEO
✓Mantenha o ficheiro abaixo de 500KB
Evitar
✗Usar robots.txt para segurança
✗Bloquear todos os bots sem razão
✗Usar expressões regulares (não suportadas)
✗Esquecer-se de atualizar após mudanças no site
✗Bloquear CSS/JS necessário para renderização de página
✗Criar múltiplos ficheiros robots.txt
Testar o Seu robots.txt
Sempre teste o seu ficheiro robots.txt antes de implementá-lo. Use estes métodos:
Teste Manual
Visite seusite.com/robots.txt no seu navegador para verificar:
- O ficheiro está acessível e carrega corretamente
- Não há erros de sintaxe ou erros de digitação
- Todos os nomes de user-agent estão escritos corretamente
- Os caminhos correspondem à sua estrutura real do site
Google Search Console
Use a ferramenta Testador de robots.txt do Google:
- Vá ao Google Search Console
- Navegue para Rastreamento → Testador robots.txt
- Teste URLs específicos contra as suas regras
- Verifique erros e avisos
Validadores Online
Use validadores de robots.txt de terceiros:
- Robots.txt Checker: Verifique sintaxe e cobertura
- Analisador GEO Bloffee: Valida robots.txt como parte da análise completa do site
- Ferramentas SEO: Muitas plataformas SEO incluem testes robots.txt
Monitorização de Logs do Servidor
Verifique os seus logs de servidor para verificar comportamento de bots:
- Procure strings user-agent de bots IA nos logs de acesso
- Verifique se os bots estão a respeitar as suas regras
- Identifique qualquer rastreamento não autorizado
- Monitorize frequência e padrões de rastreamento
Configurações Avançadas
Limitação de Taxa com Crawl-delay
Controle a velocidade com que os bots rastreiam o seu site para reduzir carga do servidor:
User-agent: GPTBot Crawl-delay: 10 Allow: / User-agent: ClaudeBot Crawl-delay: 5 Allow: /
Nota: Nem todos os bots suportam crawl-delay. É mais fiável usar limitação de taxa do lado do servidor.
Padrões Wildcard
Use wildcards para corresponder múltiplos caminhos (suportado pela maioria dos bots modernos):
User-agent: * # Block all PDF files Disallow: /*.pdf$ # Block all URLs with query parameters Disallow: /*? # Block all admin pages Disallow: /*/admin/
Múltiplos Sitemaps
Liste múltiplos sitemaps para diferentes tipos de conteúdo:
Sitemap: https://yoursite.com/sitemap-pages.xml Sitemap: https://yoursite.com/sitemap-blog.xml Sitemap: https://yoursite.com/sitemap-products.xml Sitemap: https://yoursite.com/sitemap-images.xml
Dicas Rápidas de robots.txt
- •Comece permitindo todos os bots de pesquisa IA para máxima visibilidade
- •Bloqueie apenas bots específicos se tiver uma razão forte
- •Sempre inclua a localização do seu sitemap
- •Teste mudanças antes de implementar em produção
- •Monitorize acesso de bots nos seus logs de servidor
- •Atualize robots.txt quando mudar a estrutura do site
- •Lembre-se: robots.txt não é uma medida de segurança
Impacto no Seu GEO-Score
A sua configuração robots.txt afeta diretamente a sua pontuação de Acesso a Bots IA, que é um componente chave do seu GEO-Score geral.
O Bloffee verifica o seu robots.txt para:
- Se os bots IA podem aceder ao seu conteúdo
- Sintaxe e formatação adequadas
- Bloqueio acidental de páginas importantes
- Declaração de sitemap
- Regras excessivamente restritivas que prejudicam visibilidade
Um robots.txt bem configurado que dá boas-vindas a bots IA pode melhorar o seu GEO-Score em 10-15 pontos. Bloquear bots importantes pode reduzir a sua pontuação em 20-30 pontos ou mais.
Pronto para Gerar o Seu robots.txt?
Use o nosso gerador gratuito de robots.txt para criar uma configuração otimizada para IA em segundos. Configure mais de 40 bots com um clique.
Tópicos Relacionados
- Referência de User-Agents de Bots IA
Lista completa de user-agents de bots IA com detalhes técnicos
- Acesso a Bots IA
Aprenda como o acesso de bots afeta o seu GEO-Score
- Guia Completo de Meta Tags
Configure meta robots tags para controlo adicional de bots
- Gerador Gratuito de robots.txt
Gere um ficheiro robots.txt otimizado para IA em segundos