Como corrigir “indexado, embora bloqueado por robots.txt” no GSC

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

[ad_1]

“Indexado, embora bloqueado por robots.txt” é mostrado no Google Search Console (GSC) quando o Google indexou URLs que eles não têm permissão para rastrear.

Na maioria dos casos, esse será um problema direto em que você bloqueou o rastreamento em seu arquivo robots.txt. Mas existem algumas condições adicionais que podem desencadear o problema, então vamos passar pelo seguinte processo de solução de problemas para diagnosticar e corrigir as coisas da forma mais eficiente possível:

Como corrigir "indexado, embora bloqueado por robots.txt" no GSC 3

Você pode ver que a primeira etapa é perguntar a si mesmo se deseja que o Google indexe o URL.

Se você não quer o URL indexado …

Basta adicionar uma metatag de robôs noindex e permitir o rastreamento, presumindo que seja canônico.

Se você bloquear o rastreamento de uma página, o Google ainda poderá indexá-la porque rastreamento e indexação são duas coisas diferentes. A menos que o Google possa rastrear uma página, eles não verão a metatag noindex e ainda poderão indexá-la porque ela contém links.

Se o URL canoniza para outra página, não adicione uma meta tag de robôs noindex. Apenas certifique-se de que os sinais de canonização adequados estejam em vigor, incluindo uma tag canônica na página canônica, e permita o rastreamento para que os sinais sejam transmitidos e consolidados corretamente.

Se você quer o URL indexado …

Você precisa descobrir por que o Google não consegue rastrear o URL e remova o bloco.

A causa mais provável é um bloqueio de rastreamento em robots.txt. Mas existem alguns outros cenários em que você pode ver mensagens dizendo que você está bloqueado. Vamos examiná-los na ordem em que você provavelmente deve procurá-los.

  1. Verifique se há um bloqueio de rastreamento no robots.txt
  2. Verifique se há bloqueios intermitentes
  3. Verifique se há um bloco de agente de usuário
  4. Verifique se há um IP quadra
Leia Também  Relatórios diários, semanais e mensais

Verifique se há um bloqueio de rastreamento no robots.txt

A maneira mais fácil de ver o problema é com o testador de robots.txt em GSC, que sinalizará a regra de bloqueio.

2-robots-tester.gif

Se você sabe o que está procurando ou não tem acesso a GSC, você pode navegar até domain.com/robots.txt para localizar o arquivo. Temos mais informações em nosso artigo robots.txt, mas provavelmente você está procurando uma declaração de proibição como:

Disallow: /

Pode haver um agente de usuário específico mencionado ou pode bloquear todos. Se o seu site for novo ou foi lançado recentemente, você pode procurar por:

User-agent: *
Disallow: /

Não consegue encontrar um problema?

É possível que alguém já tenha corrigido o bloqueio do robots.txt e resolvido o problema antes de você investigar o problema. Esse é o melhor cenário. No entanto, se o problema parecer resolvido, mas reaparecer pouco depois, você pode ter um bloqueio intermitente.

Como consertar

Você vai querer remover a instrução disallow que está causando o bloqueio. A maneira como você faz isso varia de acordo com a tecnologia que está usando.

WordPress

Se o problema afetar todo o seu site, a causa mais provável é que você marcou uma configuração no WordPress para impedir a indexação. Esse erro é comum em novos sites e após migrações de sites. Siga estas etapas para verificar:

  1. Clique em ‘Configurações’
  2. Clique em ‘Ler’
  3. Certifique-se de que a opção ‘Visibilidade do mecanismo de pesquisa’ está desmarcada.
3-wordpress-search-engine-block.png
WordPress com Yoast

Se você estiver usando o Yoast SEO plugin, você pode editar diretamente o arquivo robots.txt para remover a instrução de bloqueio.

  1. Clique em ‘Yoast SEO
  2. Clique em ‘Ferramentas’
  3. Clique em ‘Editor de arquivo’
WordPress com Rank Math

Semelhante ao Yoast, o Rank Math permite que você edite o arquivo robots.txt diretamente.

  1. Clique em ‘Classificar Matemática’
  2. Clique em ‘Configurações Gerais’
  3. Clique em ‘Editar robots.txt’
Leia Também  Decisão antitruste francesa prepara o terreno para o Google pagar por conteúdo de notícias na Europa
FTP ou hospedagem

Se você tem FTP acesso ao site, você pode editar diretamente o arquivo robots.txt para remover a instrução disallow que está causando o problema. Seu provedor de hospedagem também pode fornecer acesso a um Gerenciador de arquivos que permite acessar o arquivo robots.txt diretamente.

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

Verifique se há bloqueios intermitentes

Problemas intermitentes podem ser mais difíceis de solucionar porque as condições que causam o bloqueio nem sempre estão presentes.

O que eu recomendo é verificar o histórico do seu arquivo robots.txt. Por exemplo, no GSC testador do robots.txt, se você clicar no menu suspenso, verá as versões anteriores do arquivo em que pode clicar e ver o que elas continham.

4-historic-robots-txt.gif

A Wayback Machine em archive.org também tem um histórico dos arquivos robots.txt dos sites que eles rastreiam. Você pode clicar em qualquer uma das datas para as quais eles possuem dados e ver o que o arquivo incluiu naquele dia específico.

5-wayback-machine.png

Ou use a versão beta do relatório de Alterações, que permite ver facilmente as alterações de conteúdo entre duas versões diferentes.

6-wayback-machine.gif

Como consertar

O processo de correção de blocos intermitentes dependerá da causa do problema. Por exemplo, uma possível causa seria um cache compartilhado entre um ambiente de teste e um ambiente ativo. Quando o cache do ambiente de teste está ativo, o arquivo robots.txt pode incluir uma diretiva de bloqueio. E quando o cache do ambiente ao vivo está ativo, o site pode ser rastreável. Nesse caso, você desejaria dividir o cache ou talvez excluir arquivos .txt do cache no ambiente de teste.

Verifique se há bloqueios de agente do usuário

Os bloqueios de user agent ocorrem quando um site bloqueia um user agent específico, como Googlebot ou AhrefsBot. Em outras palavras, o site está detectando um bot específico e bloqueando o agente de usuário correspondente.

Se você pode ver uma página sem problemas em seu navegador regular, mas é bloqueado após alterar seu agente de usuário, isso significa que o agente de usuário específico que você inseriu está bloqueado.

Você pode especificar um agente de usuário específico usando o Chrome devtools. Outra opção é usar uma extensão do navegador para alterar os agentes do usuário como este.

Leia Também  Google experimenta mais alterações na pesquisa para computador após o lançamento de etiqueta de anúncio favicon / preto

Como alternativa, você pode verificar os blocos do agente do usuário com um comando cURL. Veja como fazer isso no Windows:

  1. Pressione Windows + R para abrir uma caixa “Executar”.
  2. Digite “cmd” e clique em “Está bem. ”
  3. Insira um comando cURL como este:
curl -A “user-agent-name-here” -Lv [URL]curl -A “Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)” -Lv https://ahrefs.com

Como consertar

Infelizmente, este é outro onde saber como consertar dependerá de onde você encontrar o bloco. Muitos sistemas diferentes podem bloquear um bot, incluindo .htaccess, configuração do servidor, firewalls, CDN, ou mesmo algo que você não consiga ver controlado pelo seu provedor de hospedagem. Sua melhor aposta pode ser entrar em contato com seu provedor de hospedagem ou CDN e pergunte de onde vem o bloqueio e como você pode resolvê-lo.

Por exemplo, aqui estão duas maneiras diferentes de bloquear um agente de usuário em .htaccess que você pode precisar procurar.

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Googlebot [NC]RewriteRule .* - [F,L]

Ou…

BrowserMatchNoCase "Googlebot" bots
Order Allow,Deny
Allow from ALL
Deny from env=bots

Verificar se há IP blocos

Se você confirmou que não está bloqueado por robots.txt e descartou bloqueios de user agent, provavelmente é um IP quadra.

Como consertar

IP blocos são questões difíceis de rastrear. Tal como acontece com os bloqueios de agente de usuário, sua melhor aposta pode ser entrar em contato com seu provedor de hospedagem ou CDN e pergunte de onde vem o bloqueio e como você pode resolvê-lo.

Aqui está um exemplo de algo que você pode estar procurando em .htaccess:

deny from 123.123.123.123

Pensamentos finais

Na maioria das vezes, o aviso “indexado, embora bloqueado por robots.txt” resulta de um bloqueio de robots.txt. Felizmente, este guia o ajudou a encontrar e corrigir o problema, se esse não foi o seu caso.

Tem perguntas? Me avisa no Twitter.



[ad_2]

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

Deixe um comentário

O seu endereço de e-mail não será publicado.