el Guille, la Web del Visual Basic, C#, .NET y más...

Robots.txt:
Cómo indicarle a los buscadores qué indexar de un sitio Web

 
Publicado el 30/Abr/2008
Actualizado el 30/Abr/2008
Autor: Guillermo 'guille' Som

En este artículo te explico lo que debes poner en el fichero robots.txt para indicarle a los buscadores qué recursos deben ver en tu sitio y cuáles no deben ver (o indexar).


 

Introducción:

No me voy a enrollar demasiado, ya que hay bastante documentación al respecto en la Web sobre cómo configurar este fichero especial que en teoría deberían usar todos los buscadores (o indexadores) de sitios Web.

Te cuento la historia (que no la batallita del agüelo):

Cuando un buscador "formal" de sitios (como Google, Yahoo, MSN, AltaVista, Lycos, etc.) entra en un sitio Web, lo primero que hace es comprobar si en el directorio raíz del sitio existe un fichero llamado robots.txt (no se debe distinguir mayúsculas de minúsculas en el nombre). Si existe ese fichero, lo abre y usa el contenido del mismo. El contenido puede ser directorios o páginas (o ficheros) concretos a los que se permite el acceso y a los que no.

También se puede indicar en ese fichero qué buscadores son para los que se indican las cosas que se indican, es decir, si quieres permitir que cualquier buscador no indexe una página, puedes usar:

User-agent: *
Disallow: /bin
Disallow: /imagenes

De esta forma le estás diciendo que TODOS los buscadores no deben indexar esas carpetas.

Si una carpeta está anidada en otra, puedes indicarlo así:

User-agent: *
Disallow: /bin
Disallow: /imagenes/personales/

Si quieres evitar que ciertos buscadores indexen cosas, después de User-agent debes indicar el nombre, ese nombre dependerá de cada buscador, por ejemplo, el de Google es: Googlebot, el de Yahoo es: Slurp y el de MSN es: msnbot.

En ese fichero también se indican los directorios (o ficheros individuales) a los que se permite el acceso, en ese caso, en lugar de usar Disallow, debes usar Allow.

Recuerda que cada directorio o fichero individual debe estar en una línea independiente.

Por ejemplo, si quieres que el buscador de Google no indexe la carpeta img, pero si que de esa carpeta indexe la página Default.aspx, puedes hacerlo así:

User-agent: Googlebot
Disallow: /img/
Allow: /img/Default.aspx

 

Robots.txt y los meta tags

Además del fichero robots.txt, puedes usar los meta tags en la cabecera de cada página, para indicar que no indexe esa página, el valor de la página tendrá preferencia (siempre que la hayan podido indexar).

Por ejemplo, si no has "bloqueado" que se indexe un directorio en particular pero no quieres que cierta página se indexe por los buscadores, puedes usar este código dentro del bloque <head> y </head> de la página que no quieres que indexe:

<meta name="robots" content="noindex">

 

Si quieres saber más sobre robots.txt

Estos links te pueden ayudar a saber más sobre este fichero "especial":

 

Espero que te sea de utilidad y lo filtres bien ;-))))

Nos vemos.
Guillermo

 



 


La fecha/hora en el servidor es: 22/12/2024 7:08:27

La fecha actual GMT (UTC) es: 

©Guillermo 'guille' Som, 1996-2024