Como Corrigir Problemas Comuns do Robots.txt

Como Corrigir Problemas Comuns do Robots.txt

Robots.txt é uma ferramenta útil e poderosa para instruir os rastreadores de mecanismos de pesquisa sobre como você deseja que eles rastreiem seu site. Gerenciar esse arquivo é um componente chave de um bom SEO técnico .

Não é todo-poderoso – nas próprias palavras do Google , “não é um mecanismo para manter uma página da web fora do Google” – mas pode ajudar a evitar que seu site ou servidor seja sobrecarregado por solicitações de rastreadores.

Se você tiver esse bloqueio de rastreamento em seu site, você deve ter certeza de que ele está sendo usado corretamente.

Isto é particularmente importante se você usar URLs dinâmicos ou outros métodos que gerem um número teoricamente infinito de páginas.

Neste e-mail, veremos alguns dos problemas mais comuns com o arquivo robots.txt, o impacto deles no seu site e na sua presença na pesquisa, e como corrigir esses problemas se você acha que eles ocorreram.

Ok, vamos ao que interessa: Afinal de contas…
Robots.txt usa um formato de arquivo de texto simples e é colocado no diretório raiz do seu site.

Deve estar no diretório superior do seu site, pois os motores de busca simplesmente irão ignorá-lo se você colocá-lo em um subdiretório.

Apesar de seu grande poder, o robots.txt costuma ser um documento relativamente simples e um arquivo robots.txt básico pode ser criado em segundos usando um editor como o Bloco de Notas.
Você pode se divertir com eles e adicionar mensagens adicionais para os usuários encontrarem.
Existem outras maneiras de atingir alguns dos mesmos objetivos para os quais o robots.txt normalmente é usado, onde páginas individuais podem incluir uma meta tag robots no próprio código da página.

Você também pode usar o cabeçalho HTTP X-Robots-Tag para influenciar como (e se) o conteúdo é mostrado nos resultados da pesquisa.

Mas…

O que o Robots.txt pode fazer?

Robots.txt pode resultar em uma variedade de resultados em vários tipos de conteúdo diferentes:

As páginas da Web podem ser impedidas de serem rastreadas.
Eles ainda poderão aparecer nos resultados da pesquisa, mas não terão uma descrição de texto. O conteúdo não HTML da página também não será rastreado.

Os arquivos de mídia podem ser impedidos de aparecer nos resultados de pesquisa do Google.
Isso inclui arquivos de imagens, vídeo e áudio.

Se o arquivo for público, ele ainda “existirá” online e poderá ser visualizado e vinculado, mas esse conteúdo privado não será exibido nas pesquisas do Google.

Arquivos de recursos como scripts externos aparentemente sem importância podem ser bloqueados .
Isso significa que se o Google rastrear uma página que requer o carregamento desse recurso, o robô Googlebot “verá” uma versão da página como se esse recurso não existisse, o que pode afetar a indexação.

Ah, você não pode usar o robots.txt para bloquear completamente a exibição de uma página da web nos resultados de pesquisa do Google (mas algumas configurações erradas podem impactar várias delas).

Para conseguir isso, você deve usar um método alternativo, como adicionar uma meta tag noindex ao cabeçalho da página, ok?

Quão perigosos são os erros do Robots.txt?

Um erro no robots.txt pode ter consequências indesejadas, mas muitas vezes não é o fim do mundo.

A boa notícia é que, ao corrigir seu arquivo robots.txt, você pode se recuperar de quaisquer erros de forma rápida e (geralmente) completa.

A orientação do Google para desenvolvedores web diz o seguinte sobre erros do robots.txt:

“Os rastreadores da Web geralmente são muito flexíveis e normalmente não serão influenciados por pequenos erros no arquivo robots.txt. Em geral, o pior que pode acontecer é que diretivas incorretas ou não suportadas sejam ignoradas.

Tenha em mente que o Google não consegue ler mentes ao interpretar um arquivo robots.txt; temos que interpretar o arquivo robots.txt que vemos. Dito isso, se você estiver ciente dos problemas em seu arquivo robots.txt, eles geralmente são fáceis de corrigir.”

Sendo assim, vamos aos …

8 erros comuns do Robots.txt

  1. Robots.txt não está no diretório raiz.
  2. Mau uso de curingas.
  3. Noindex em Robots.txt.
  4. Scripts e folhas de estilo bloqueados.
  5. Nenhum URL do Sitemap.
  6. Acesso a sites de desenvolvimento.
  7. Usando URLs absolutos.
  8. Elementos obsoletos e sem suporte.
Se o seu site se comportar de maneira estranha nos resultados da pesquisa, o arquivo robots.txt é um bom lugar para começar a procurar erros, como erros de sintaxe e regras exageradas.

Vamos dar uma olhada em cada um dos erros acima com mais detalhes e ver como garantir que você tenha um arquivo robots.txt válido.

1. Robots.txt não está no diretório raiz

Os robôs de pesquisa só poderão descobrir o arquivo se ele estiver na sua pasta raiz.

É por isso que deve haver apenas uma barra entre o .com (ou domínio equivalente) do seu site e o nome do arquivo ‘robots.txt’, no URL do seu arquivo robots.txt.

Se houver uma subpasta lá, seu arquivo robots.txt provavelmente não estará visível para os robôs de pesquisa e seu site provavelmente estará se comportando como se não existisse nenhum arquivo robots.txt.

Para corrigir esse problema, mova o arquivo robots.txt para o diretório raiz.

É importante notar que isso exigirá que você tenha acesso root ao seu servidor.

Note que alguns sistemas de gerenciamento de conteúdo carregam arquivos para um subdiretório “mídia” (ou algo semelhante) por padrão, então talvez seja necessário contornar isso para colocar seu arquivo robots.txt no lugar certo.

2. Mau uso de curingas

Robots.txt oferece suporte a dois caracteres curinga:

  • Asterisco (*) – representa qualquer ocorrência de um personagem válido, como um Coringa em um baralho de cartas.
  • Cifrão ($) – indica o final de uma URL, permitindo aplicar regras apenas à parte final da URL, como a extensão do tipo de arquivo.

É sensato adotar uma abordagem minimalista ao usar curingas, pois eles têm o potencial de aplicar restrições a uma parte muito mais ampla do seu site.

Também é relativamente fácil acabar bloqueando o acesso do robô em todo o seu site com um asterisco mal colocado.

Cuidado !

Teste suas regras curinga usando uma ferramenta de teste robots.txt para garantir que elas se comportem conforme o esperado.

E claro, tenha cuidado com o uso de curingas para evitar bloquear acidentalmente ou permitir demais.

3. Noindex em Robots.txt

Este é mais comum em sites com mais de alguns anos.

O Google parou de obedecer às regras noindex em arquivos robots.txt a partir de 1º de setembro de 2019.

Logo, se o seu arquivo robots.txt foi criado antes dessa data ou contém instruções noindex, você provavelmente verá essas páginas indexadas nos resultados de pesquisa do Google. Mesmo que não queira. rsrsrs.

A solução para este problema é implementar um método alternativo “noindex”, onde uma opção é a meta tag robots, que você pode adicionar ao cabeçalho de qualquer página da web que deseja impedir a indexação do Google.

4. Scripts e folhas de estilo bloqueados

Pode parecer lógico bloquear o acesso do rastreador a JavaScripts externos e CSS.

Porém, lembre-se que o Googlebot precisa de acesso aos arquivos CSS e JS para “ver” suas páginas HTML e PHP corretamente.

Se suas páginas estão se comportando de maneira estranha nos resultados do Google ou parece que o Google não as está vendo corretamente, verifique se você está bloqueando o acesso do rastreador aos arquivos necessários.

Uma solução simples para isso é remover a linha do arquivo robots.txt que está bloqueando o acesso, ou se você tiver alguns arquivos que precisa bloquear, insira uma exceção que restaure o acesso ao CSS e JavaScript necessários.

5. Nenhum sitemap XML

Isso tem mais a ver com SEO do que qualquer outra coisa.

Você pode e deve incluir o URL do seu sitemap XML no arquivo robots.txt.

Como este é o primeiro lugar que o Googlebot procura quando rastreia seu site, isso dá ao rastreador uma vantagem no conhecimento da estrutura e das páginas principais do seu site.

Embora isso não seja estritamente um erro – já que teóricamente a omissão de um mapa do site não deve afetar negativamente a funcionalidade principal real e a aparência do seu site nos resultados de pesquisa (com execssão de páginas orfãs) – ainda vale a pena adicionar o URL do mapa do site ao robots.txt, se você quiser dar uma chance maior ainda aos seus esforços de SEO.

6. Acesso a sites de desenvolvimento

Bloquear rastreadores de seu site ativo é proibido, mas também permite que eles rastreiem e indexem suas páginas que ainda estão em desenvolvimento.

É uma prática recomendada adicionar uma instrução de proibição ao arquivo robots.txt de um site em construção para que o público em geral não o veja até que seja concluído.

Da mesma forma, é crucial remover a instrução de proibição ao lançar um site concluído.

Esquecer de remover esta linha do robots.txt é um dos erros mais comuns entre desenvolvedores web; isso pode impedir que todo o seu site seja rastreado e indexado corretamente.

Acredite, eu já vi desenvolvedores liberarem um site com bloqueio de indexação geral, e também depois de fazer alterações. Simplesmente esqueceram.

PS.: O bloqueio geral funciona no robots.

Se o seu site em desenvolvimento parece estar recebendo tráfego do mundo real ou se o seu site lançado recentemente não está apresentando um bom desempenho nas pesquisas, procure uma regra de proibição universal em seu arquivo robots.txt: Se você vir isso, faça as alterações necessárias em seu arquivo robots.txt e verifique se a aparência de pesquisa do seu site é atualizada de acordo. Exemplo:

User-Agent: *

Disallow: /

7. Usando URLs absolutas

Embora o uso de URLs absolutas em coisas como canônicale hreflang seja uma prática recomendada, para URLs no robots.txt, o inverso é verdadeiro.

Usar caminhos relativos no arquivo robots.txt é a abordagem recomendada para indicar quais partes de um site não devem ser acessadas por rastreadores.

Isso está detalhado na documentação do robots.txt do Google , que afirma:

Um diretório ou página, relativo ao domínio raiz, que pode ser rastreado pelo agente do usuário que acabamos de mencionar.

Quando você usa um URL absoluta, não há garantia de que os rastreadores o interpretarão conforme pretendido e que a regra de proibir/permitir será seguida.

8. Elementos obsoletos e sem suporte

Embora as diretrizes para arquivos robots.txt não tenham mudado muito ao longo dos anos, dois elementos que são frequentemente incluídos são:

  • Atraso de rastreamento.
  • No Index.

Embora o Bing ofereça suporte ao atraso de rastreamento, o Google não, mas geralmente isso é especificado pelos webmasters.

Provávelmente você costumava definir configurações de rastreamento no Google Search Console, mas isso foi removido no final de 2023 .

Além disso, o Google anunciou que deixaria de oferecer suporte à diretiva noindex em arquivos robots.txt em julho de 2019.

E antes dessa data, os webmasters podiam usar a diretiva noindex em seus arquivos robots.txt.

Esta não era uma prática amplamente apoiada ou padronizada, e o método preferido para noindex era usar robots na página ou x-robots no nível da página.

Como se recuperar de um erro no Robots.txt

Se um erro no robots.txt tiver efeitos indesejados na aparência de pesquisa do seu site, o primeiro passo é corrigir o robots.txt e verificar se as novas regras surtem o efeito desejado.

Algumas ferramentas de rastreamento de SEO podem ajudar para que você não precise esperar que os mecanismos de pesquisa rastreiem seu site em seguida.

Quando tiver certeza de que o robots.txt está se comportando conforme desejado, você pode tentar fazer com que seu site seja rastreado novamente o mais rápido possível.

Aliás, plataformas como Google Search Console e Bing Webmaster Tools podem ajudar: Envie um mapa do site atualizado e solicite um novo rastreamento de todas as páginas que foram removidas de forma inadequada.

Porém infelizmente você está por conta do Googlebot, logo não há garantia de quanto tempo levará para que as páginas ausentes reapareçam no índice de pesquisa do Google.

Tudo o que você pode fazer é tomar as medidas corretas para minimizar esse tempo tanto quanto possível e continuar verificando até que o Googlebot implemente o robots.txt corrigido.

É …

No que diz respeito aos erros do robots.txt, prevenir é sempre melhor do que remediar.

Em um grande site gerador de receita, um curinga perdido que remove todo o seu site do Google pode ter um impacto imediato nos ganhos.

As edições no robots.txt devem ser feitas cuidadosamente por desenvolvedores experientes, verificadas novamente e – quando apropriado – sujeitas a uma segunda opinião.

Se possível, teste em um editor sandbox antes de enviar ao vivo em seu servidor real para evitar a criação inadvertida de problemas de disponibilidade.

Lembre-se, quando o pior acontecer, é importante não entrar em pânico.

Diagnostique o problema, faça os reparos necessários no robots.txt e reenvie o mapa do site para um novo rastreamento.

E agora com essas dicas em mãos, você pode se concentrar em atualizar e trabalhar seu site e continuar a ter os resultados cada vez melhores.

Finalizando:

Aguardamos ansiosamente seu feedback e histórias de sucesso, afinal é isso que nos move a escrevermos cada vez mais e melhor!

E claro, você pode sugerir temas, só responder esse e-mail que eu pessoalmente vou ler e te responder.

Ah, e fique atento à nossa próxima newsletter, onde mergulharemos ainda mais fundo no mundo do SEO DE PERFORMANCE.

Meu último recado:

A) Se você têm ou não têm uma equipe de SEO e quer levar seus resultados de tráfego orgânico a um outro nível, me responde esse e-mail ou me chama e discutimos a melhor oportunidade para eu te ajudar.

B) Se você trabalha com SEO, fique atento que em breve terei uma gama de produtos e treinamentos a preços acessíveis, com foc estratégico e de resultados.

C) Se você acha que esse conteúdo pode ser útil para algum amigo ou alguém do seu time, convide essa pessoa a assinar minha newsletter, é só falar para a pessoa acessar meu site RodolfoSabino.com, movimentar o mouse para fora como se fosse sair da página, que o pop-up vai aparecer. Muito obrigado!

Seja você quem for que está envolvido em SEO, espero ter lhe ajudado, e até a próxima edição dessa newsletter toda terça-feira às 10:00 da manhã (hoje excepcionalmente mais tarde, por motivos técnicos, pessoais e tudo mais), com mais conteúdo denso e estratégico, para lhe ajudar a obter cada vez mais resultados com SEO.

Te vejo na próxima semana.


Assine minha Newsletter Semanal, junte-se a mais de 5.000 asinantes e receba conteúdo com dicas e estratégias exclusivas e uma curadoria de conteúdos essenciais para se destacar no Tráfego Orgânico.

Compartilhe:

Você também pode gostar de: