O arquivo robots.txt é um arquivo de texto simples colocado na raiz do seu site (https://example.com/robots.txt) que diz aos crawlers de mecanismos de busca quais páginas ou seções do seu site eles devem ou não acessar. Ele existe desde 1994 e é um dos padrões mais antigos da web. Todo mecanismo de busca sério o respeita, embora seja importante entender o que ele pode e o que não pode fazer.
Como a sintaxe do robots.txt funciona
O arquivo usa uma sintaxe simples, baseada em linhas. Cada bloco começa com uma linha User-agent que especifica a qual crawler as regras se aplicam, seguida por uma ou mais diretivas Disallow ou Allow. Aqui está um detalhamento completo de todas as diretivas suportadas:
User-agent: identifica o crawler. Use*para mirar todos os crawlers, ou especifique um bot em particular comoGooglebot,BingbotouGPTBot.Disallow: diz ao crawler para não acessar o caminho especificado.Disallow: /private/bloqueia tudo dentro do diretório /private/. UmDisallow:vazio significa que nada está bloqueado.Allow: sobrescreve uma regra Disallow para um caminho específico. Útil quando você quer bloquear um diretório, mas permitir acesso a determinados arquivos dentro dele.Sitemap: especifica a URL do seu sitemap XML. Não faz parte tecnicamente do padrão original do robots.txt, mas todos os principais mecanismos de busca a suportam.Crawl-delay: diz ao crawler para esperar um número especificado de segundos entre requisições. O Google ignora essa diretiva (você pode definir a taxa de crawl no Search Console), mas o Bing e alguns outros crawlers a respeitam.
Um exemplo típico de robots.txt para WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /xmlrpc.php
Disallow: /?s=
Disallow: /search/
Sitemap: https://example.com/sitemap_index.xmlVamos passar pelo que cada linha faz:
Disallow: /wp-admin/: impede que crawlers acessem a área administrativa do WordPress. Não há motivo para que mecanismos de busca rastreiem seu painel.Allow: /wp-admin/admin-ajax.php: essa exceção é importante porque muitos temas e plugins usam admin-ajax.php para funcionalidades de frontend. Bloqueá-lo pode quebrar recursos nas páginas públicas.Disallow: /wp-includes/: bloqueia o diretório de includes do núcleo do WordPress, que contém arquivos de sistema que não devem ser indexados.Disallow: /readme.html: oculta o arquivo readme do WordPress que revela a versão do WordPress.Disallow: /xmlrpc.php: bloqueia o acesso ao endpoint XML-RPC, frequentemente alvo de ataques de força bruta.Disallow: /?s=eDisallow: /search/: previne a indexação de páginas de resultado de busca interna, que são de baixo valor e podem criar conteúdo duplicado.
robots.txt vs. a meta tag noindex
Essa é uma das distinções mais frequentemente mal compreendidas em SEO. Muitos proprietários de sites pensam que bloquear uma página no robots.txt impede que ela apareça nos resultados de busca. Não é assim que funciona.
robots.txt controla o crawling: diz aos mecanismos de busca para não visitar uma URL específica. Mas se outros sites linkarem para essa URL, o Google ainda pode indexá-la, mostrando a URL nos resultados de busca com uma nota como "Não há informações disponíveis para esta página".
A meta tag noindex controla a indexação: diz aos mecanismos de busca "você pode rastrear esta página, mas não a inclua nos seus resultados de busca". O ponto crucial é que o Google precisa de fato rastrear a página para ver a diretiva noindex. Se você bloqueia uma página no robots.txt E adiciona uma tag noindex, o Google não consegue rastrear a página para descobrir a tag noindex, então ele ainda pode indexar a URL com base em sinais externos.
A regra geral: use o robots.txt para gerenciar crawl budget e manter crawlers fora de áreas do servidor. Use noindex quando quiser uma página totalmente removida dos resultados de busca.
Como o Googlebot lida com o robots.txt
O Google verifica seu arquivo robots.txt regularmente, tipicamente armazenando-o em cache por até 24 horas. Se o Google não conseguir buscar o arquivo (por exemplo, seu servidor retorna um erro 500), ele temporariamente para de rastrear o seu site por segurança. Uma resposta 404, por outro lado, é interpretada como "sem restrições", significando que o Google rastreará tudo.
O Google também suporta correspondência por padrões nos caminhos do robots.txt. Você pode usar * como curinga e $ para indicar o final de uma URL:
Disallow: /*.pdf$
Disallow: /category/*/page/A primeira regra bloqueia todos os arquivos PDF em todo o site. A segunda bloqueia páginas de paginação dentro dos arquivos de categoria.
Testando seu robots.txt com o Google Search Console
O Google Search Console inclui um testador de robots.txt que permite verificar se uma URL específica está bloqueada. Isso é valioso após fazer alterações no seu robots.txt, já que um pequeno erro de digitação pode acidentalmente bloquear páginas importantes. Insira a URL que deseja testar, e a ferramenta diz se está permitida ou bloqueada, e qual regra é responsável.
Você deve testar seu robots.txt após cada alteração, especialmente após grandes atualizações de site, mudanças de tema ou migrações. Leva apenas alguns segundos e pode te poupar de desindexar acidentalmente partes do seu site.
Erros comuns de robots.txt em sites WordPress
Alguns erros aparecem repetidamente em sites WordPress:
- Bloquear arquivos CSS e JavaScript: alguns templates antigos de robots.txt bloqueiam amplamente
/wp-content/ou/wp-includes/. Isso impede o Google de acessar os arquivos CSS e JS necessários para renderizar suas páginas. Se o Googlebot não consegue renderizar sua página corretamente, ele não consegue avaliá-la corretamente para ranqueamento. Sempre permita acesso a arquivos CSS e JavaScript. - Bloquear o site inteiro durante o desenvolvimento: desenvolvedores frequentemente adicionam
Disallow: /durante staging e esquecem de removê-lo antes do lançamento. O WordPress tem uma configuração "Pedir aos mecanismos de busca para não indexar este site" que faz algo similar, e ela é deixada ligada com mais frequência do que você imagina. - Usar o robots.txt como medida de segurança: o arquivo é publicamente acessível. Qualquer um pode ler seu robots.txt e ver exatamente quais caminhos você está tentando ocultar. Se você tem conteúdo sensível, use autenticação adequada ou controles de acesso do lado do servidor.
- Regras conflitantes: quando você tem múltiplos blocos de User-agent com regras sobrepostas, o comportamento pode ser imprevisível. O Google usa a regra de correspondência mais específica, mas outros crawlers podem lidar com conflitos de forma diferente. Mantenha seu robots.txt simples e evite blocos redundantes.
O robots.txt gerado automaticamente pelo WordPress e como personalizá-lo
Se nenhum arquivo robots.txt físico existe no diretório raiz do seu WordPress, o WordPress gera um virtual automaticamente. Esse arquivo padrão é mínimo, contendo tipicamente apenas a regra disallow para /wp-admin/ com a exceção do admin-ajax.php.
Você tem três opções para personalizá-lo:
- Criar um arquivo físico: envie um arquivo
robots.txtpara o diretório raiz do seu WordPress via FTP ou pelo gerenciador de arquivos da sua hospedagem. Isso sobrescreve completamente a versão virtual. - Usar um plugin de SEO: tanto o Yoast SEO quanto o Rank Math fornecem um editor de robots.txt no painel administrativo do WordPress, para que você possa fazer alterações sem acesso FTP.
- Usar um filter hook: desenvolvedores podem modificar a saída virtual do robots.txt usando o filtro
robots_txtno WordPress. Essa abordagem mantém a personalização no código, facilitando o rastreamento em controle de versão.
O que o InspectWP verifica
O InspectWP verifica se o seu site WordPress tem um arquivo robots.txt, analisa as regras que ele contém e verifica se uma referência a sitemap está incluída. Sinaliza problemas comuns como diretivas Sitemap ausentes, regras disallow excessivamente amplas que possam bloquear conteúdo importante e regras que possam impedir o Google de renderizar suas páginas corretamente.