Robots.txt: o que é, qual sua importância e como utilizá-lo

Os mecanismos de pesquisa empregam robôs de pesquisa, conhecidos como webcrawlers/spiders, para explorar a internet inteira, indexando a maioria – se não todo – dos conteúdos disponíveis. Em resposta a isso, foi estabelecido um padrão chamado “Protocolo de Exclusão de Robôs”, que permite incluir um arquivo chamado robots.txt na raiz do site, informando aos robôs de pesquisa quais páginas eles não devem acessar.

A importância do Robots.txt para o seu site

O arquivo robots.txt é uma ferramenta crucial para qualquer projeto de website, pois através dele os mecanismos de busca conseguem saber quais arquivos ou diretórios podem ser acessados. É importante criar um arquivo robots.txt, mesmo que em branco, na raiz do domínio, para garantir que os mecanismos de busca possam acessar todo o site, caso algo estranho aconteça com o servidor e o Google opte por não ler o site todo.

É fundamental lembrar que deve haver apenas um arquivo robots.txt para cada site, e este arquivo deve estar no diretório raiz. Se houver outro arquivo robots.txt em qualquer outro diretório, ele não será acessado pelos mecanismos de busca. No entanto, em empresas grandes, essa prática pode não ser vantajosa, pois nem todos os funcionários têm acesso ao diretório raiz do site.

O objetivo dos robôs dos buscadores é navegar pela internet e indexar conteúdo para exibição nos resultados de busca. No entanto, há casos em que é desejável que algumas páginas não sejam exibidas, como as apresentadas a seguir.

Páginas de Login
Páginas que concedem acesso restrito, como a uma intranet, geralmente não devem ser indexadas;

Páginas com conteúdo duplicado
Se você tiver várias landing pages com conteúdo similar para suas campanhas Google AdWords, é recomendável bloquear as cópias e indexar apenas uma versão, evitando problemas de conteúdo duplicado;

Páginas de impressão
Se o seu site tiver versões para tela e impressão, é recomendável eliminar a versão de impressão do índice do Google.

Por fim, é importante destacar que o arquivo robots.txt não é uma medida de segurança, pois ele impede que os robôs de busca leiam o conteúdo especificado, mas não impede o acesso dos usuários.

Como criar um arquivo robots.txt

Existem várias formas de criar um arquivo robots.txt, como utilizar o Bloco de Notas ou qualquer outro editor de texto simples. No entanto, existem ferramentas on-line gratuitas que permitem selecionar as páginas que devem ser bloqueadas dos robôs de busca. A ferramenta fornece o código completo e pronto para ser usado em seu arquivo robots.txt. Recomendamos testar uma dessas ferramentas para facilitar o processo de criação do arquivo.

Um exemplo de ferramenta de geração de Robots.txt pode ser visualizada aqui.

Formato e sintaxe do arquivo robots.txt

A sintaxe do arquivo robots.txt é utilizada para criar uma política de acesso aos robôs, tendo palavras reservadas que funcionam como comandos para permitir ou não o acesso a determinados diretórios ou páginas de um site. Abaixo estão os principais comandos do arquivo robots.txt.

User-agent
O comando User-agent tem a função de listar quais robôs devem seguir as regras definidas no arquivo robots.txt. Por exemplo, se você deseja que somente o mecanismo de busca do Google siga as definições do arquivo, é necessário indicar o User-agent como Googlebot. Veja as principais opções:

• Google: User-agent: Googlebot
• Google Imagens: User-agent: Googlebot-images
• Google Adwords: User-agent: Adsbot-Google
• Google Adsense: User-agent: Mediapartners-Google
• Yahoo: User-agent: Slurp
• Bing: User-agent: Bingbot

Todos os mecanismos: User-agent: * (ou simplesmente não incluir o comando User-agent)

Sitemap
O comando Sitemap permite indicar o caminho e o nome do sitemap em formato XML do site. No entanto, a ferramenta para Webmasters do Google oferece um maior controle e visibilidade para essa função. Veja como o Google submete, em seu arquivo robots.txt, diversos sitemaps:

• Sitemap: http://www.google.com/hostednews/sitemap_index.xml
• Sitemap: http://www.google.com/sitemaps_webmasters.xml
• Sitemap: http://www.google.com/ventures/sitemap_ventures.xml
• Sitemap: http://www.gstatic.com/dictionary/static/sitemaps/sitemap_index.xml
• Sitemap: http://www.gstatic.com/earth/gallery/sitemaps/sitemap.xml
• Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml
• Sitemap: http://www.gstatic.com/trends/websites/sitemaps/sitemapindex.xml

Disallow
O comando Disallow instrui os sites de busca sobre quais diretórios ou páginas não devem ser incluídos no índice. Veja alguns exemplos:

• Disallow: /prod – orienta aos robots a não indexarem pastas ou arquivos que comecem com “prod”;
• Disallow: /prod/ – orienta aos robots a não indexarem conteúdo dentro da pasta “prod”;
• Disallow: print1.html – orienta aos robots a não indexarem conteúdo da página print1.html.

Allow
O comando Allow orienta aos robots qual diretório ou página deve ter o conteúdo indexado. Diretórios e páginas são sempre permitidos por definição, portanto, esse comando deve ser utilizado apenas em situações em que o webmaster bloqueou o acesso a um diretório por meio do comando Disallow, mas gostaria de ter indexado um arquivo ou subdiretório dentro do diretório bloqueado. Veja o exemplo abaixo:

• Disallow: /catalogs
• Allow: /catalogs/about

O Allow permite que seja indexado o diretório /about abaixo do diretório /catalogs.

Conclusões finais para tirar o melhor proveito do seu robots.txt

Entenda a sintaxe
Antes de criar o seu arquivo robots.txt, é fundamental que você compreenda a sua sintaxe para evitar erros e criar regras corretas.

Use as palavras-chave adequadas
Para indicar quais robôs devem seguir as regras, quais páginas devem ser bloqueadas e quais páginas devem ser permitidas, utilize as palavras-chave apropriadas, tais como “User-agent”, “Disallow” e “Allow”.

Não confie totalmente no robots.txt
Tenha em mente que o arquivo robots.txt é apenas uma sugestão para os robôs de busca e alguns podem ignorar ou interpretar as regras de maneira diferente.

Utilize ferramentas de teste
Antes de implementar o arquivo robots.txt no seu site, utilize ferramentas de teste para verificar se as regras estão funcionando corretamente e se as páginas que você deseja bloquear estão realmente sendo bloqueadas.

Atualize regularmente
É importante manter o seu arquivo robots.txt atualizado, principalmente quando realizar mudanças no site que possam afetar a indexação. Se você excluir uma página ou diretório do seu site, lembre-se de remover a regra Disallow correspondente do arquivo robots.txt.

Tenha cuidado ao usar Disallow
Use o comando Disallow com cautela, pois ele pode bloquear páginas importantes do seu site, como páginas de produtos ou categorias. Certifique-se de que as páginas que você bloqueia não são cruciais para a indexação e a experiência do usuário.

Inclua um sitemap
Adicione um sitemap XML ao seu site para ajudar os robôs de busca a encontrar todas as páginas importantes do seu site, o que pode garantir que todas elas sejam indexadas corretamente.