O que é e para que serve o ficheiro robots.txt?
O robots.txt é um arquivo colocado no servidor para dizer aos “spiders” o que queremos que eles vejam e indexem dentro do nosso site. É um arquivo muito importante para o SEO de qualquer site.
Podemos usá-lo para impedir a indexação total, ou evitar que determinadas áreas do nosso site sejam indexadas. É também possível dar instruções para páginas individuais e / ou para motores de busca específicos (Google, Bing, Yahoo…)
O robots.txt não é mais que um arquivo de texto simples, que pode ser criado no Bloco de Notas ou em qualquer outro editor de texto.
Uma vez criado, este deve ser colocado na raiz do nosso site, que é o diretório onde sua página inicial, ou a página de índice se encontra.
Porque é tão importante este arquivo?
Todos os motores de busca, ou pelo menos todos os mais importantes, olham para o arquivo robots.txt e a partir daí, as suas “aranhas”, ou “robôs” chegam aos sites.
Mesmo que não exista nada de importante a evitar para indexação, é sempre recomendável a inclusão deste arquivo, pois serve como “convite” à visita ao nosso site. Mais tarde ou mais cedo encontraremos algo que não deverá estar indexado e já temos o arquivo criado.
Algumas situações nas quais podemos querer excluir o nosso site ou pastas especificas dos motores de busca.
- Enquanto o site está em construção;
- No caso de existirem várias “landing pages” semelhantes e evitar penalizações por conteúdo duplicado;
- Existem sempre páginas ou pastas que não necessitam de estar indexadas; como por exemplo as páginas de erro e pastas como a pasta “cgi-bin”;
- No caso de querer retirar uma página específica, que está a aparecer nos motores de busca, também a pode desabilitar com este arquivo;
- No caso de apenas querer trabalhar e constar nos resultados de pesquisa de alguns motores de busca e não de outros;
- No caso de simplesmente não querer o seu site indexado.
Vamos agora ver como se cria este arquivo:
- No caso de querermos que todo o nosso conteúdo seja indexado por todos os motores de busca:
- No caso de querermos que todo o nosso conteúdo seja indexado, mas só pelo Google:
- No caso de querermos evitar a indexação de todas as páginas do directório “abcd” por todos os motores de busca:
- Para remover todos os arquivos de um tipo de arquivo específico (por exemplo,. Gif), podemos usar a seguinte entrada no robots.txt:
- Para remover páginas geradas dinamicamente, podemos usar essa entrada robots.txt:
User-agent: *
Disallow:
OU
User-agent: *
Allow: /
Em que “*” significa: todos os “bots” e “/” significa: tudo.
User-agent: Googlebot
Disallow:
O Googlebot é o bot do Google, assim como cada um tem o seu.
User-agent: *
Disallow: /abcd
User-agent: *
Disallow: / *. gif $
User-agent: *
Disallow: / *?
Dependendo da plataforma usada na criação do nosso site, este arquivo pode e deve ser diferente. Por exemplo um site em Drupal, tem um arquivo robots.txt diferente de um em Joomla ou mesmo de um blog criado em WordPress, cada um com as suas características particulares.
E vocês já tem um arquivo robots.txt nos seus sites?
Wednesday, 9 February, 2011
[...] This post was mentioned on Twitter by seo hoje, marcoteixeir@. marcoteixeir@ said: Como criar o ficheiro robots.txt http://fb.me/OCIrJnb1 [...]
Thursday, 10 February, 2011
[...] aqui falei em como criar o arquivo robots.txt algumas vezes, mas existem outras formas de evitar a indexação de determinadas páginas do nosso [...]
Wednesday, 8 February, 2012
[...] aqui neste blog num dos ultimos artigos, uma explicação sobre como criar o arquivo robots.txt, agora vou ser mais especifico e vou falar diretamente deste arquivo enquadrado com o [...]