Google agora lê imagens em PDF

31 de outubro de 2008

O Google já lê e indexa arquivos em PDF há um bom tempo, mas ontem anunciaram em seu blog oficial que agora conseguem ler - e indexar - o conteúdo de texto scaneado em PDFs. Enquanto antes o Google somente conseguia indexar o conteúdo de arquivos em PDF que estivessem em formato de texto, agora consegue fazer OCR (Optical Character Recognition) nos documentos, isto é, interpretar o texto em imagem e transformá-lo em um documento texto, como .doc ou .html.

Disso para começar a interpretar texto em imagens GIF / JPG é um passo, e isso pode se tornar mais um fator relevante em um trabalho de SEO, pois é mais texto para ser levado em consideração pelo Google em seu algoritmo. Sem contar que pode ser a saída da obscuridão total para aqueles sites feitos todos em imagens por webdesigners sem o menor conhecimento de SEO, que ainda são freqüentemente encontrados na internet. No post do Google, eles citam o seguinte exemplo. Notem que a opção "View as HTML" permite ver como o Google interpretou o texto.

Pages

SEO Marketing