Introducción:
No me voy a enrollar demasiado, ya que hay bastante documentación al
respecto en la Web sobre cómo configurar este fichero especial que en teoría
deberían usar todos los buscadores (o indexadores) de sitios Web.
Te cuento la historia (que no la batallita del agüelo):
Cuando un buscador "formal" de sitios (como Google, Yahoo,
MSN, AltaVista, Lycos, etc.) entra en un sitio Web, lo primero
que hace es comprobar si en el directorio raíz del sitio existe
un fichero llamado robots.txt (no se debe
distinguir mayúsculas de minúsculas en el nombre). Si existe ese
fichero, lo abre y usa el contenido del mismo. El contenido
puede ser directorios o páginas (o ficheros) concretos a los que
se permite el acceso y a los que no.
También se puede indicar en ese fichero qué buscadores son
para los que se indican las cosas que se indican, es decir, si
quieres permitir que cualquier buscador no indexe una página,
puedes usar:
User-agent: *
Disallow: /bin
Disallow: /imagenes
De esta forma le estás diciendo que TODOS los buscadores no deben indexar
esas carpetas.
Si una carpeta está anidada en otra, puedes indicarlo así:
User-agent: *
Disallow: /bin
Disallow: /imagenes/personales/
Si quieres evitar que ciertos buscadores indexen cosas, después de
User-agent debes indicar el nombre, ese nombre dependerá de cada
buscador, por ejemplo, el de Google es: Googlebot,
el de Yahoo es: Slurp y el de MSN
es: msnbot.
En ese fichero también se indican los directorios (o ficheros
individuales) a los que se permite el acceso, en ese caso, en
lugar de usar Disallow, debes usar
Allow.
Recuerda que cada directorio o fichero individual debe estar
en una línea independiente.
Por ejemplo, si quieres que el buscador de Google no indexe
la carpeta img, pero si que de esa carpeta indexe la página
Default.aspx, puedes hacerlo así:
User-agent: Googlebot
Disallow: /img/
Allow: /img/Default.aspx
Robots.txt y los meta tags
Además del fichero robots.txt, puedes usar los meta tags en
la cabecera de cada página, para indicar que no indexe esa
página, el valor de la página tendrá preferencia (siempre que la
hayan podido indexar).
Por ejemplo, si no has "bloqueado" que se indexe un
directorio en particular pero no quieres que cierta página se
indexe por los buscadores, puedes usar este código dentro del
bloque <head> y </head> de la página que no quieres que indexe:
<meta name="robots" content="noindex">
Si quieres saber más sobre robots.txt
Estos links te pueden ayudar a saber más sobre este fichero
"especial":
Espero que te sea de utilidad y lo filtres bien ;-))))
Nos vemos.
Guillermo