Um sitemap XML é um arquivo que lista todas as páginas importantes do seu site em um formato estruturado que os mecanismos de busca conseguem ler facilmente. Pense nele como um sumário do seu site. Embora os crawlers dos mecanismos de busca acabem descobrindo a maioria das suas páginas seguindo links, um sitemap acelera o processo e garante que nada importante seja deixado de lado, especialmente em sites grandes com centenas ou milhares de páginas.
O que um sitemap realmente contém
Em essência, um sitemap XML é uma lista de URLs com metadados opcionais para cada entrada. Veja o que cada campo significa:
<loc>: a URL completa da página. Esse é o único campo obrigatório.<lastmod>: a data em que a página foi modificada pela última vez. O Google usa isso para decidir se deve fazer crawl novamente da página. Se você atualiza um post de blog, a data lastmod deve refletir essa mudança.<changefreq>: com que frequência a página tende a mudar (always, hourly, daily, weekly, monthly, yearly, never). Na prática, o Google em grande parte ignora esse campo e se baseia em seus próprios dados de crawl.<priority>: um valor entre 0,0 e 1,0 indicando a importância relativa da página dentro do seu site. Como o changefreq, isso é majoritariamente ignorado pelo Google hoje. Era mais relevante nos primeiros dias dos sitemaps.
Estrutura do sitemap e arquivos de índice de sitemap
Um único arquivo de sitemap pode conter até 50.000 URLs e não deve exceder 50 MB descomprimido. Para a maioria dos sites WordPress de pequeno e médio porte, um único arquivo é mais que suficiente. Mas sites maiores (lojas WooCommerce com milhares de produtos, sites de notícia com anos de arquivos) atingem rapidamente esse limite.
A solução é um arquivo de índice de sitemap. Em vez de listar URLs diretamente, o arquivo de índice aponta para múltiplos sitemaps menores:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://example.com/post-sitemap.xml</loc>
<lastmod>2025-03-15</lastmod>
</sitemap>
<sitemap>
<loc>https://example.com/page-sitemap.xml</loc>
<lastmod>2025-02-20</lastmod>
</sitemap>
<sitemap>
<loc>https://example.com/product-sitemap.xml</loc>
<lastmod>2025-03-18</lastmod>
</sitemap>
</sitemapindex>Tanto o Yoast SEO quanto o Rank Math automaticamente dividem seu sitemap em arquivos menores organizados por tipo de conteúdo (posts, páginas, categorias, produtos etc.).
Um exemplo básico de sitemap
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://example.com/</loc>
<lastmod>2025-03-15</lastmod>
<priority>1.0</priority>
</url>
<url>
<loc>https://example.com/about/</loc>
<lastmod>2025-01-10</lastmod>
<priority>0.8</priority>
</url>
</urlset>Como o Google Search Console usa seu sitemap
Submeter seu sitemap ao Google Search Console é uma das primeiras coisas que você deve fazer após lançar um site WordPress. Uma vez submetido, o Search Console informa quantas URLs o Google encontrou no sitemap e quantas dessas estão de fato indexadas. Isso é incrivelmente útil para diagnosticar problemas. Se seu sitemap lista 500 páginas, mas apenas 300 estão indexadas, você sabe que existe um problema que vale investigar. Talvez algumas páginas sejam fracas, duplicadas ou estejam retornando erros.
O Google Search Console também mostra quando o sitemap foi lido pela última vez pelo Googlebot, para que você possa confirmar que o Google está checando regularmente por atualizações.
WordPress e sitemaps
Desde a versão 5.5, o WordPress gera automaticamente um sitemap XML básico em /wp-sitemap.xml. Esse sitemap embutido é funcional, mas bastante básico. Inclui posts, páginas e custom post types, mas carece de recursos que os plugins de SEO oferecem.
A maioria dos proprietários de sites usa um plugin de SEO no lugar, porque os plugins oferecem mais controle:
- Yoast SEO: gera sitemaps em
/sitemap_index.xml, divide-os por tipo de post, inclui referências de imagem dentro de cada entrada de URL e exclui automaticamente conteúdo marcado como noindex. - Rank Math: funcionalidade similar, acessível em
/sitemap_index.xml. Também suporta news sitemaps e video sitemaps para sites com esse tipo de conteúdo.
Quando você ativa um plugin de SEO que gera sitemaps, ele tipicamente desabilita o sitemap nativo do WordPress para evitar conflitos.
O que incluir e o que excluir
Seu sitemap deve ser uma lista curada de páginas que você de fato quer que os mecanismos de busca indexem. Isso significa ser seletivo:
- Incluir: posts de blog publicados, páginas importantes (sobre, contato, serviços), páginas de produto, páginas de categoria que tenham conteúdo significativo.
- Excluir: páginas marcadas como noindex, páginas de conteúdo fraco (arquivos de tag com apenas um ou dois posts), páginas de arquivo paginadas (/page/2/, /page/3/), páginas de resultados de busca interna, páginas de login ou registro, páginas de agradecimento após envios de formulário.
Um sitemap inchado, cheio de URLs de baixa qualidade, pode na verdade prejudicar seu SEO. O Google tem um crawl budget limitado para cada site e, se ele gasta tempo rastreando páginas que não merecem ser indexadas, suas páginas importantes podem ser rastreadas com menos frequência.
A diretiva Sitemap no robots.txt
Seu arquivo robots.txt deve incluir uma linha apontando para seu sitemap:
Sitemap: https://example.com/sitemap_index.xmlIsso ajuda os mecanismos de busca a encontrarem seu sitemap mesmo que você não o tenha submetido pelo Search Console. A maioria dos plugins de SEO adiciona essa linha automaticamente. Se você tem um arquivo robots.txt personalizado, certifique-se de que a diretiva Sitemap esteja presente e aponte para a URL correta.
Erros comuns de sitemap
Algumas armadilhas surgem regularmente com sitemaps no WordPress:
- Incluir URLs com noindex: se uma página tem uma meta tag noindex, mas aparece no sitemap, você está enviando sinais conflitantes ao Google. A página diz "não me indexe" enquanto o sitemap diz "por favor, indexe-me". Plugins de SEO geralmente lidam com isso corretamente, mas sitemaps criados manualmente podem ter esse problema.
- Datas de lastmod desatualizadas: algumas configurações nunca atualizam o timestamp lastmod. Se cada página do seu sitemap mostra a mesma data de três anos atrás, o Google deixa de confiar nos dados de lastmod e recorre ao seu próprio cronograma de crawl.
- Esquecer de atualizar após migração: depois de migrar para um novo domínio ou mudar a estrutura de URLs, o sitemap muitas vezes ainda contém URLs antigas. Isso leva a uma enxurrada de erros 404 no Search Console.
- Múltiplos sitemaps conflitantes: rodar o sitemap nativo do WordPress e o de um plugin ao mesmo tempo. Embora não seja prejudicial em si, pode causar confusão ao depurar problemas de indexação.
O que o InspectWP verifica
O InspectWP verifica se o seu site WordPress tem um sitemap XML acessível. Procura a URL do sitemap no seu arquivo robots.txt e tenta caminhos comuns como /sitemap.xml, /sitemap_index.xml e /wp-sitemap.xml. Se um sitemap for encontrado, o InspectWP confirma que ele é alcançável e válido, ajudando a identificar problemas como URLs de sitemap quebradas ou diretivas de sitemap ausentes antes que afetem sua visibilidade nas buscas.