O que é o robots.txt?

O arquivo robots.txt é um arquivo de texto simples colocado na raiz do seu site (https://example.com/robots.txt) que diz aos crawlers de mecanismos de busca quais páginas ou seções do seu site eles devem ou não acessar. Ele existe desde 1994 e é um dos padrões mais antigos da web. Todo mecanismo de busca sério o respeita, embora seja importante entender o que ele pode e o que não pode fazer.

Como a sintaxe do robots.txt funciona

O arquivo usa uma sintaxe simples, baseada em linhas. Cada bloco começa com uma linha User-agent que especifica a qual crawler as regras se aplicam, seguida por uma ou mais diretivas Disallow ou Allow. Aqui está um detalhamento completo de todas as diretivas suportadas:

User-agent: identifica o crawler. Use * para mirar todos os crawlers, ou especifique um bot em particular como Googlebot, Bingbot ou GPTBot.
Disallow: diz ao crawler para não acessar o caminho especificado. Disallow: /private/ bloqueia tudo dentro do diretório /private/. Um Disallow: vazio significa que nada está bloqueado.
Allow: sobrescreve uma regra Disallow para um caminho específico. Útil quando você quer bloquear um diretório, mas permitir acesso a determinados arquivos dentro dele.
Sitemap: especifica a URL do seu sitemap XML. Não faz parte tecnicamente do padrão original do robots.txt, mas todos os principais mecanismos de busca a suportam.
Crawl-delay: diz ao crawler para esperar um número especificado de segundos entre requisições. O Google ignora essa diretiva (você pode definir a taxa de crawl no Search Console), mas o Bing e alguns outros crawlers a respeitam.

Um exemplo típico de robots.txt para WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /xmlrpc.php
Disallow: /?s=
Disallow: /search/

Sitemap: https://example.com/sitemap_index.xml

Vamos passar pelo que cada linha faz:

Disallow: /wp-admin/: impede que crawlers acessem a área administrativa do WordPress. Não há motivo para que mecanismos de busca rastreiem seu painel.
Allow: /wp-admin/admin-ajax.php: essa exceção é importante porque muitos temas e plugins usam admin-ajax.php para funcionalidades de frontend. Bloqueá-lo pode quebrar recursos nas páginas públicas.
Disallow: /wp-includes/: bloqueia o diretório de includes do núcleo do WordPress, que contém arquivos de sistema que não devem ser indexados.
Disallow: /readme.html: oculta o arquivo readme do WordPress que revela a versão do WordPress.
Disallow: /xmlrpc.php: bloqueia o acesso ao endpoint XML-RPC, frequentemente alvo de ataques de força bruta.
Disallow: /?s= e Disallow: /search/: previne a indexação de páginas de resultado de busca interna, que são de baixo valor e podem criar conteúdo duplicado.

robots.txt vs. a meta tag noindex

Essa é uma das distinções mais frequentemente mal compreendidas em SEO. Muitos proprietários de sites pensam que bloquear uma página no robots.txt impede que ela apareça nos resultados de busca. Não é assim que funciona.

robots.txt controla o crawling: diz aos mecanismos de busca para não visitar uma URL específica. Mas se outros sites linkarem para essa URL, o Google ainda pode indexá-la, mostrando a URL nos resultados de busca com uma nota como "Não há informações disponíveis para esta página".

A meta tag noindex controla a indexação: diz aos mecanismos de busca "você pode rastrear esta página, mas não a inclua nos seus resultados de busca". O ponto crucial é que o Google precisa de fato rastrear a página para ver a diretiva noindex. Se você bloqueia uma página no robots.txt E adiciona uma tag noindex, o Google não consegue rastrear a página para descobrir a tag noindex, então ele ainda pode indexar a URL com base em sinais externos.

A regra geral: use o robots.txt para gerenciar crawl budget e manter crawlers fora de áreas do servidor. Use noindex quando quiser uma página totalmente removida dos resultados de busca.

Como o Googlebot lida com o robots.txt

O Google verifica seu arquivo robots.txt regularmente, tipicamente armazenando-o em cache por até 24 horas. Se o Google não conseguir buscar o arquivo (por exemplo, seu servidor retorna um erro 500), ele temporariamente para de rastrear o seu site por segurança. Uma resposta 404, por outro lado, é interpretada como "sem restrições", significando que o Google rastreará tudo.

O Google também suporta correspondência por padrões nos caminhos do robots.txt. Você pode usar * como curinga e $ para indicar o final de uma URL:

Disallow: /*.pdf$
Disallow: /category/*/page/

A primeira regra bloqueia todos os arquivos PDF em todo o site. A segunda bloqueia páginas de paginação dentro dos arquivos de categoria.

Testando seu robots.txt com o Google Search Console

O Google Search Console inclui um testador de robots.txt que permite verificar se uma URL específica está bloqueada. Isso é valioso após fazer alterações no seu robots.txt, já que um pequeno erro de digitação pode acidentalmente bloquear páginas importantes. Insira a URL que deseja testar, e a ferramenta diz se está permitida ou bloqueada, e qual regra é responsável.

Você deve testar seu robots.txt após cada alteração, especialmente após grandes atualizações de site, mudanças de tema ou migrações. Leva apenas alguns segundos e pode te poupar de desindexar acidentalmente partes do seu site.

Erros comuns de robots.txt em sites WordPress

Alguns erros aparecem repetidamente em sites WordPress:

Bloquear arquivos CSS e JavaScript: alguns templates antigos de robots.txt bloqueiam amplamente /wp-content/ ou /wp-includes/. Isso impede o Google de acessar os arquivos CSS e JS necessários para renderizar suas páginas. Se o Googlebot não consegue renderizar sua página corretamente, ele não consegue avaliá-la corretamente para ranqueamento. Sempre permita acesso a arquivos CSS e JavaScript.
Bloquear o site inteiro durante o desenvolvimento: desenvolvedores frequentemente adicionam Disallow: / durante staging e esquecem de removê-lo antes do lançamento. O WordPress tem uma configuração "Pedir aos mecanismos de busca para não indexar este site" que faz algo similar, e ela é deixada ligada com mais frequência do que você imagina.
Usar o robots.txt como medida de segurança: o arquivo é publicamente acessível. Qualquer um pode ler seu robots.txt e ver exatamente quais caminhos você está tentando ocultar. Se você tem conteúdo sensível, use autenticação adequada ou controles de acesso do lado do servidor.
Regras conflitantes: quando você tem múltiplos blocos de User-agent com regras sobrepostas, o comportamento pode ser imprevisível. O Google usa a regra de correspondência mais específica, mas outros crawlers podem lidar com conflitos de forma diferente. Mantenha seu robots.txt simples e evite blocos redundantes.

O robots.txt gerado automaticamente pelo WordPress e como personalizá-lo

Se nenhum arquivo robots.txt físico existe no diretório raiz do seu WordPress, o WordPress gera um virtual automaticamente. Esse arquivo padrão é mínimo, contendo tipicamente apenas a regra disallow para /wp-admin/ com a exceção do admin-ajax.php.

Você tem três opções para personalizá-lo:

Criar um arquivo físico: envie um arquivo robots.txt para o diretório raiz do seu WordPress via FTP ou pelo gerenciador de arquivos da sua hospedagem. Isso sobrescreve completamente a versão virtual.
Usar um plugin de SEO: tanto o Yoast SEO quanto o Rank Math fornecem um editor de robots.txt no painel administrativo do WordPress, para que você possa fazer alterações sem acesso FTP.
Usar um filter hook: desenvolvedores podem modificar a saída virtual do robots.txt usando o filtro robots_txt no WordPress. Essa abordagem mantém a personalização no código, facilitando o rastreamento em controle de versão.

O que o InspectWP verifica

O InspectWP verifica se o seu site WordPress tem um arquivo robots.txt, analisa as regras que ele contém e verifica se uma referência a sitemap está incluída. Sinaliza problemas comuns como diretivas Sitemap ausentes, regras disallow excessivamente amplas que possam bloquear conteúdo importante e regras que possam impedir o Google de renderizar suas páginas corretamente.

O que é o robots.txt?

Como a sintaxe do robots.txt funciona

Um exemplo típico de robots.txt para WordPress

robots.txt vs. a meta tag noindex

Como o Googlebot lida com o robots.txt

Testando seu robots.txt com o Google Search Console

Erros comuns de robots.txt em sites WordPress

O robots.txt gerado automaticamente pelo WordPress e como personalizá-lo

O que o InspectWP verifica

O que é um sitemap XML?

O que é um certificado SSL?

Artigos relacionados

O que são HTTP/2 e HTTP/3? Um guia prático para sites WordPress

O que são custom post types do WordPress?

O que é um block theme do WordPress (Full Site Editing)?

Verifique seu site WordPress agora