Por visar à melhoria na qualidade e “integridade” dos sites em seu índice, o Google monitora e relata aos webmasters ou proprietários de um site problemas como erros de rastreamento, problemas de indexação, URLs bloqueados via robots.txt, e outros impasses de integridade como o envio de malware.
Antes de continuarmos, é importante lembrar que apenas sites cadastrados no Google Webmaster Tools têm acesso a esse tipo de informação.
Ao levar em conta que seu site já esta cadastrado no Google Webmaster Tools, na aba Integridade é possível monitorar: erros de rastreamento, estatísticas de rastreamento, URLs bloqueados, status do índice, se o site envia malware (ou foi hackeado), além de entender como o Google rastreia as páginas de um site (buscar como o Google). A seguir, veremos qual a utilidade de cada uma delas.
Erros de Rastreamento
Vários fatores podem gerar um erro de rastreamento. Links quebrados, páginas que não existem mais, erros no servidor, problemas de dns ou a URL estar bloqueada. Cada um destes erros de rastreamento tem um código. Os mais comuns são:
Erro 404 – Página Não Encontrada
O Google detecta conteúdos seguindo links de uma página para a outra. Geralmente, um erro de status Não Encontrado (normalmente, o código de status 404 HTTP) é retornado quando o Googlebot tenta acessar uma página que não existe, seja porque você a excluiu ou a renomeou sem redirecionar o URL antigo a uma nova página, ou por causa de um erro de digitação em um link.
Normalmente, os erros 404 não afetam o desempenho do site na pesquisa, mas é melhor corrigi-los para ajudar a aprimorar a experiência do usuário.
Soft 404
Muito parecido com o erro 404, o soft 404 ocorre quando o usuário tenta acessar uma página inexistente dentro de um site e o servidor não retorna o erro 404 (arquivo não encontrado).
Erro 500 – Erros no Servidor
Erro interno no servidor. O Googlebot não pode acessar a URL, porque a solicitação atingiu o tempo limite ou porque o site bloqueia o Google. As páginas dinâmicas podem demorar muito para carregar ou o site pode bloquear o Googlebot.
O tempo excessivo no carregamento de páginas, que resulta no fim do tempo limite de rastreamento, pode acontecer pelos seguintes motivos:
• Páginas dinâmicas que levam muito tempo para responder;
• O servidor de hospedagem do site estar inativo, sobrecarregado ou desconfigurado;
• Banco de dados sobrecarregado ou não otimizado.
Também é possível monitorar os erros de busca do robots.txt. É importante dar atenção especial a essa área. Resumidamente, o arquivo robots.txt é o primeiro que o Googlebot procura quando acessa um site. Se um site não possui tal arquivo e o servidor não está configurado para retornar um erro 404, o rastreamento do site é adiado, o que pode causar queda no número de páginas indexadas e, consequentemente, de tráfego.
Estatísticas de Rastreamento
Nessa aba, monitora-se a
atividade do Googlebot em seu site nos últimos 90 dias. Saiba quantas páginas são
rastreadas e quilobytes recebidos por dia, e o tempo de download de uma página
(em milissegundos).
URLs Bloqueados
Existem duas maneiras de impedir que um URL ou áreas de um site que não sejam rastreadas e consequentemente indexadas pelo Google . Uma é por meio de meta tag robots “noindex” (<meta name= “robots” contente= “noindex” >) e a outra é por meio do arquivo robots.txt.
Para testar se a configuração do arquivo robots.txt funciona de forma correta, é possível testá-la nessa sessão do Webmaster Tools.
Buscar como o Google
Buscar como o Goolge é, sem dúvida, a ferramenta mais útil da aba Integridade. Com ela, podemos pedir para o Googlebot rastrear uma determinada URL e mostrar exatamente o que rastreou. Essa ferramenta é bastante útil para identificar erros no código de uma página que podem impossibilitar a indexação.
Uma vez corrigido o erro, é possível pedir para que a página seja rastreada novamente e reenviada ao índice.
Essa ferramenta também é útil para enviar novas páginas ao índice. Lembre-se que existe um limite de apenas 10 URLs que podem ser enviadas por mês. Já o numero de requisições de rastreamento é um pouco maior, 500 requisições de busca.
No dia 24/07/2012, o Google anunciou no Webmasters Central Blog uma nova ferramenta que possibilita visualizar o número de páginas indexadas de um site durante o último ano. Tal informação é de grande importância para webmasters e SEOs em geral, pois agora é possível saber com precisão o número de páginas indexadas e diagnosticar problemas de indexação de um site.
O seu site envia Malware?
Quando um site envia malware, o Google exibe uma mensagem de aviso aos usuários, informando-os que o site envia conteúdo malicioso. Na grande maioria dos casos, os proprietários de sites não fazem isso de maneira intencional, pois pode ter ocorrido a invasão de hackers.
Caso isso aconteça, o Google Webmaster exibe um alerta de integridade ao lado do site, na página inicial das Ferramentas do Google para webmasters.
Como podem ver, o Google se preocupa com integridade do seu site e fornece uma série de ferramentas de monitoramento para que você acompanhe, detecte e solucione problemas com o site o mais rápido possível.
Na próxima semana, veremos como corrigir e minimizar os erros de rastreamento de um site. Não deixem de conferir os outros artigos desta série de tutoriais sobre o novo Google Webmaster Tools.
Dúvidas? Deixe-as nos comentários abaixo. Responderei assim que possível.
Gostaram do artigo? Então curtam, compartilhem, "retweetem" e dê +1. Valeu!
Sobre o autor
3 comments:
Realmente muito bem esclarecido, obrigado.
Eu vi que o número de urls não encontradas do meu blog estava altissimo quase 400 erros(404) ai percebi que todos vinham de links do central blogs será que isso indica um erro deles e que eles teram que corrigir.
obrigado pela atenção
vlw
Galera, não sei se vcs já passaram por esse problema.
Tivemos uma grande mudança no layout do site da minha empresa e com isso houve um grande aumentos de páginas não encontradas, devido as alterações diversos links quebraram.
Fizemos uma força tarefa para realizarmos todos os redirecionamentos necessários, porém no Webmaster Tools estes erros 404 continua crescendo, porém verificando os links notamos que eles funcionam perfeitamente devido ao redirecionamento já ter sido executado. O que pode ser? porque o Google rastreia essas páginas se elas foram redirecionadas e funcionam?
Obrigado Pessoal!
Postar um comentário