Voltar ao Centro de Aprendizagem

robots.txt para Bots IA

Controle quais motores IA podem aceder ao seu conteúdo

O Que é robots.txt?

O ficheiro robots.txt é um ficheiro de texto simples que informa bots e rastreadores quais partes do seu site podem visitar. Pense nele como um sinal na entrada do seu site que diz "visitantes bem-vindos" ou "área privada." Cada bot que segue as regras (chamado Protocolo de Exclusão de Robots) verifica este ficheiro primeiro antes de rastrear o seu site.

Para motores de pesquisa IA, robots.txt é especialmente importante. Controla se bots IA como GPTBot (ChatGPT), ClaudeBot (Claude) e PerplexityBot podem aceder ao seu conteúdo para treino e resultados de pesquisa. Configurar isto corretamente ajuda-o a gerir o seu acesso a bots IA eficazmente.

O seu ficheiro robots.txt tem de estar localizado em seusite.com/robots.txt. Os bots não procurarão por ele noutro lugar. Se não tiver este ficheiro, os bots assumem que podem rastrear tudo.

Por Que robots.txt Importa para IA

Os bots IA são diferentes dos rastreadores de motores de pesquisa tradicionais. Visitam o seu site por duas razões principais:

Recolha de Dados de Treino

Algumas empresas de IA usam conteúdo web para treinar os seus modelos de linguagem. Rastreiam milhões de páginas para construir bases de conhecimento.

Pode controlar se o seu conteúdo é usado para treino bloqueando bots específicos no robots.txt.

Geração de Resultados de Pesquisa

Os motores de pesquisa IA rastreiam o seu conteúdo para o incluir nos seus resultados de pesquisa e geração de respostas.

Permitir estes bots ajuda o seu conteúdo a aparecer em respostas geradas por IA, melhorando o seu GEO-Score.

A chave é encontrar o equilíbrio certo. Quer que os motores de pesquisa IA acedam ao seu conteúdo para visibilidade, mas pode querer bloquear certas áreas ou bots de treino específicos. O seu ficheiro robots.txt dá-lhe este controlo.

Principais User-Agents de Bots IA

Cada bot IA identifica-se com uma string user-agent única. Aqui estão os mais importantes:

GPTBot

OpenAI

User-agent: GPTBot

Usado por: ChatGPT, funcionalidades de pesquisa OpenAI

GPTBot rastreia conteúdo tanto para respostas ChatGPT como para treino. Bloqueá-lo impede que o seu conteúdo apareça nos resultados de pesquisa web do ChatGPT.

ClaudeBot

Anthropic

User-agent: ClaudeBot

Usado por: Claude AI, assistente IA da Anthropic

ClaudeBot acede a conteúdo web para fornecer informação atual nas respostas do Claude. Respeita regras robots.txt rigorosamente.

PerplexityBot

Perplexity

User-agent: PerplexityBot

Usado por: Motor de pesquisa Perplexity AI

PerplexityBot alimenta um dos motores de pesquisa IA mais populares. Permiti-lo melhora a visibilidade nos resultados de pesquisa Perplexity.

Google-Extended

Google

User-agent: Google-Extended

Usado por: Treino de Google Gemini AI

Isto é separado do Googlebot. Google-Extended recolhe dados para treinar Gemini. Bloqueá-lo não afeta indexação normal do Google Search.

FacebookBot

Meta

User-agent: FacebookBot

Usado por: Meta AI, pré-visualizações de links Facebook

FacebookBot rastreia para pré-visualizações de links e funcionalidades IA da Meta. É importante para visibilidade em redes sociais.

Para uma lista completa de user-agents de bots IA com detalhes técnicos, veja a nossa Referência de User-Agents de Bots IA.

Sintaxe Básica de robots.txt

O ficheiro robots.txt usa uma sintaxe simples com apenas alguns comandos:

User-agent

Especifica a que bot as regras seguintes se aplicam. Use * para todos os bots.

User-agent: GPTBot
User-agent: *

Disallow

Diz aos bots para NÃO aceder a caminhos específicos. Use / para bloquear tudo.

Disallow: /admin/
Disallow: /private/
Disallow: /

Allow

Diz aos bots que PODEM aceder a caminhos específicos. Use isto para substituir uma regra Disallow mais ampla.

Disallow: /admin/
Allow: /admin/public/

Crawl-delay

Define um atraso em segundos entre pedidos de bots. Não suportado por todos os bots.

Crawl-delay: 10

Sitemap

Aponta bots para o seu sitemap XML para melhor eficiência de rastreamento.

Sitemap: https://yoursite.com/sitemap.xml

Configurações Comuns de robots.txt

Aqui estão configurações prontas a usar para cenários comuns:

Permitir Todos os Bots IA (Recomendado para a Maioria dos Sites)

Esta configuração dá as boas-vindas a todos os motores de pesquisa IA enquanto protege áreas de administração:

# Allow all AI bots to crawl
User-agent: *
Allow: /

# Block private areas for all bots
Disallow: /admin/
Disallow: /api/
Disallow: /login/
Disallow: /dashboard/

# Sitemap location
Sitemap: https://yoursite.com/sitemap.xml

Bloquear Treino IA, Permitir Pesquisa IA

Bloqueie bots usados para treinar modelos IA enquanto permite bots de pesquisa:

# Block training bots
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

# Allow search bots
User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

# Default rules for other bots
User-agent: *
Allow: /
Disallow: /admin/

Sitemap: https://yoursite.com/sitemap.xml

Acesso Seletivo a Conteúdo

Permita bots IA a aceder a conteúdo de blog mas não a páginas de produtos:

# AI bots can access blog
User-agent: GPTBot
Allow: /blog/
Disallow: /

User-agent: ClaudeBot
Allow: /blog/
Disallow: /

# Default rules
User-agent: *
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

Bloquear Todos os Bots IA

Se quiser excluir-se completamente da pesquisa IA (não recomendado para visibilidade):

# Block all known AI bots
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: CCBot
Disallow: /

# Allow traditional search engines
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

Melhores Práticas

Fazer

Coloque robots.txt no seu diretório raiz

Use uma regra por linha

Inclua a localização do seu sitemap

Teste o seu robots.txt após mudanças

Permita bots IA para melhor visibilidade GEO

Mantenha o ficheiro abaixo de 500KB

Evitar

Usar robots.txt para segurança

Bloquear todos os bots sem razão

Usar expressões regulares (não suportadas)

Esquecer-se de atualizar após mudanças no site

Bloquear CSS/JS necessário para renderização de página

Criar múltiplos ficheiros robots.txt

Testar o Seu robots.txt

Sempre teste o seu ficheiro robots.txt antes de implementá-lo. Use estes métodos:

Teste Manual

Visite seusite.com/robots.txt no seu navegador para verificar:

  • O ficheiro está acessível e carrega corretamente
  • Não há erros de sintaxe ou erros de digitação
  • Todos os nomes de user-agent estão escritos corretamente
  • Os caminhos correspondem à sua estrutura real do site

Google Search Console

Use a ferramenta Testador de robots.txt do Google:

  • Vá ao Google Search Console
  • Navegue para Rastreamento → Testador robots.txt
  • Teste URLs específicos contra as suas regras
  • Verifique erros e avisos

Validadores Online

Use validadores de robots.txt de terceiros:

  • Robots.txt Checker: Verifique sintaxe e cobertura
  • Analisador GEO Bloffee: Valida robots.txt como parte da análise completa do site
  • Ferramentas SEO: Muitas plataformas SEO incluem testes robots.txt

Monitorização de Logs do Servidor

Verifique os seus logs de servidor para verificar comportamento de bots:

  • Procure strings user-agent de bots IA nos logs de acesso
  • Verifique se os bots estão a respeitar as suas regras
  • Identifique qualquer rastreamento não autorizado
  • Monitorize frequência e padrões de rastreamento

Configurações Avançadas

Limitação de Taxa com Crawl-delay

Controle a velocidade com que os bots rastreiam o seu site para reduzir carga do servidor:

User-agent: GPTBot
Crawl-delay: 10
Allow: /

User-agent: ClaudeBot
Crawl-delay: 5
Allow: /

Nota: Nem todos os bots suportam crawl-delay. É mais fiável usar limitação de taxa do lado do servidor.

Padrões Wildcard

Use wildcards para corresponder múltiplos caminhos (suportado pela maioria dos bots modernos):

User-agent: *
# Block all PDF files
Disallow: /*.pdf$

# Block all URLs with query parameters
Disallow: /*?

# Block all admin pages
Disallow: /*/admin/

Múltiplos Sitemaps

Liste múltiplos sitemaps para diferentes tipos de conteúdo:

Sitemap: https://yoursite.com/sitemap-pages.xml
Sitemap: https://yoursite.com/sitemap-blog.xml
Sitemap: https://yoursite.com/sitemap-products.xml
Sitemap: https://yoursite.com/sitemap-images.xml

Dicas Rápidas de robots.txt

  • Comece permitindo todos os bots de pesquisa IA para máxima visibilidade
  • Bloqueie apenas bots específicos se tiver uma razão forte
  • Sempre inclua a localização do seu sitemap
  • Teste mudanças antes de implementar em produção
  • Monitorize acesso de bots nos seus logs de servidor
  • Atualize robots.txt quando mudar a estrutura do site
  • Lembre-se: robots.txt não é uma medida de segurança

Impacto no Seu GEO-Score

A sua configuração robots.txt afeta diretamente a sua pontuação de Acesso a Bots IA, que é um componente chave do seu GEO-Score geral.

O Bloffee verifica o seu robots.txt para:

  • Se os bots IA podem aceder ao seu conteúdo
  • Sintaxe e formatação adequadas
  • Bloqueio acidental de páginas importantes
  • Declaração de sitemap
  • Regras excessivamente restritivas que prejudicam visibilidade

Um robots.txt bem configurado que dá boas-vindas a bots IA pode melhorar o seu GEO-Score em 10-15 pontos. Bloquear bots importantes pode reduzir a sua pontuação em 20-30 pontos ou mais.

Pronto para Gerar o Seu robots.txt?

Use o nosso gerador gratuito de robots.txt para criar uma configuração otimizada para IA em segundos. Configure mais de 40 bots com um clique.

Gerar robots.txt

Tópicos Relacionados

robots.txt para Bots IA: Guia Completo de Configuração