Robots.txt. Para que sirve y como crearlo correctamente.

El archivo de texto robots.txt, se crea con la finalidad de que un sitio de Internet o página web, pueda informar a los robots de los buscadores (arañas), de las carpetas, páginas, imágenes o distintos tipos de ficheros que deben o no deben inspeccionar o rastrear, con la finalidad de su posterior indexación o no indexación en sus respectivos Directorios.

A su vez también puede servir para indicar a los distintos buscadores, el nombre del archivo del SITEMAP y la ruta completa para acceder a él.

Esta definición está hecha un poco a groso modo, porque lo cierto es que un archivo robot.txt puede emplearse para más labores, pero para un sitio web normal bastará con aprender unos pocos conceptos de como tenemos que crear el archivo, para que dé, el resultado esperado. A continuación expondré el proceso de creación, ubicación y contenido de un archivo robot genérico.

¿Como crear el archivo robots.txt?

El archivo robots.txt como ya sabreis la mayoría es un archivo de texto. Esa extensión “txt” es archiconocida, por lo tanto nos vale cualquier editor de texto plano para crearlo. Sin ir más lejos o rebuscar demasiado, nos encontramos con el bloc de notas de Windows, que es más que suficiente para desempeñar la labor que queremos realizar.

Asi que abrimos el programa y sin escribir nada, lo guardamos con el nombre de robots, ¡OjO!, hay que poner la s de robots y guardarlo con extensión .txt. Otra cosa muy importante és, que a la hora de subir el archivo al servidor debemos guardar el mismo en la raiz de nuestro sitio, esto quiere decir que si nuestro sitio se llama www.ejemplo.com, la ruta para guardarlo sería www.ejemplo.com/robots.txt. Cualquier otra ruta no valdría. Por ejemplo www.ejempo.com/ROBOT/robots.txt no valdría, esto es más que razonable que sea así.

Contenido del archivo robots.txt.

Ya llegamos a la parte más importante, el contenido del robots.txt. Antes de nada, debemos haber pensado o anotado las carpetas, páginas o archivos a rastrear o no rastrear, para comunicárselo a los robots de los buscadores. Para ello cada uno debe valorar la importancia de la privacidad, revelancia o cualquier otra causa que nos lleve a la conclusión de indicárselo o nó a dichos robots.

Una vez meditado a conciencia las partes que queremos exponer y cuales nó, se lo indicaremos a los robots, utilizando las siguientes síntexis, comandos y parámetros:

  • User-agent: Utilizamos este comando para indicar el nombre del robot que utiliza el buscador. Por ejemplo Google dispone de varios agentes de usuario, como Googlebot, el normal utilizado en la web para la búsqueda de Google, Googlebot-Mobile para teléfonos y Googlebot-Image para imágenes de Google, El del buscador Bing se llama bingbot y con el de Yahoo, practicamente tenemos los principales, de una larga lista de mas de 300 robots o agentes de usuario. Un mismo Agente de usuario puede tener una o varias url bloqueadas con Disallow.
  • Disallow: Con este comando estamos indicando al robots especificado en User-agent, que por favor no acceda a una determinada Url.
  • Allow: Es posible que dentro de una carpeta que hemos bloqueado con Disallow, exista un subdirectorio o url perteneciente a aquella, que no deseemos bloquear, en ese caso utilizamos el comando Allow para indicarlo.

La forma correcta de escribir los comandos sería por ejemplo:

En cambio escribir los comandos así, no se debe hacer:

# Un Agente de usuario puede tener varios Disallow, pero no se pueden agrupar
Agentes de Usuario para un mismo Disallow o Allow.
A la hora de redactar el archivo robots.txt junto a los comandos anteriores disponemos de unos parámetros a modo de comodines, que nos pueden ayudar a la hora de especificar las url que indicar a los robots. Estos parámetros son los siguientes:

  • Asterisco *: El asterisco se puede utilizar de varias formas. Por ejemplo si indicamos el siguiente comando:
    User-agent: *

    , estamos haciendo que las indicaciones posteriores de Disallow o Allow vayan dirigidas a todos los buscadores.

  • barra invertida /: Especificamos rutas o partes de rutas, dependiendo donde se coloquen.
    Por ejemplo si queremos que los robots no rastreen el sitio completo pondriamos lo siguiente:

    User-agent: *
    Disallow: /

    No poner la barra produce el efecto contrario, es decir damos la indicación de querer rastrear todo el sitio:

    User-agent: *
    Disallow:

    Aunque poner lo siguiente también funcionaría, al menos con los buscadores importantes:

    User-agent: *
    Allow: /

    En el caso de querer impedir el rastreo de una carpeta o directorio completo, con todos sus archivos, escribiriamos lo siguiente:

    User-agent: *
    Disallow: /DIRECTORIO/

    Una página cualquiera:

    User-agent: *
    Disallow: /DIRECTORIO/pagina.html

    Impedir el rastreo de carpetas o archivos que empiecen con el término indicado:

    User-agent: *
    Disallow: /término*/

    Impedir el rastreo de carpetas o archivos que incluyan el término o caracter indicado:

  • El símbolo del Dolar $: A veces quizás nos interese indicar a los robots, que no rastreen determinadas carpetas o páginas que acaben en cierta extensión por ejemplo, para ello se utiliza el signo de Dolar, de esta forma:
    User-agent: *
    Disallow: /*.png$/

    De esta forma estamos indicando a todos los buscadores que no rastreen ningún archivo que acaben en extensión .png

Bueno dijimos al principio de la página que hay distintos tipos de robots a los que indicar lo que nos gustaría, o no que se rastrease. Para cambiar de un tipo a otro, ya sabemos que hay que escribir el nombre del Agente de Usuario. Por ejemplo a parte de Googlebot, Google tiene el robot de su apartado de Imágenes, Googlebot-Image, al cual le podemos indicar que imágenes no rastrear.
Y la forma de hacerlo es como ya sabemos, sólo hay que cambiar el Agente de usuario:

User-agent: Googlebot-Image
Disallow: /IMAGENES/logo.gif

En ocasiones nos puede interesar bloquear determinadas zonas o carpetas de archivos de un sito, que contienen anuncios de adsense. Y claro aquí está el dilema, como impedir que entren los robots a las páginas bloqueadas, pero que se siga mostrando la publicidad que contengan. Para solucionar esto debemos especificar el Agente de Usuario Mediapartners-Google, de la siguiente manera:

# Primero indicamos a todos los robots que no rastreen el sitio o carpetas que hayamos designado.
User-agent: *
Disallow: /
# Posteriormente, dejamos la linea de espacio y cambiamos de Agente de usuario, para ingresar el de Adsense.
User-agent: Mediapartners-Google
Allow: /

De esta manera solo tendría acceso el robot de Google Adsense.

Por último tal y como dijimos en la la página que hablaba de ¿Como darse de alta en buscadores y como crear un Sitemap?, podiamos incluir al final del archivo robots.txt la url donde estaba situado el Sitemap. Para ello añadimos como hemos dicho al final, la siguiente información:

Sitemap:https//www.midominio.com/sitemap.xml

¿Te ha gustado? Compártelo.

Añade un Comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Información básica sobre protección de datos

  • Responsable MIGUEL ANGEL SANZ.
  • Finalidad Moderar los comentarios. Responder las consultas.
  • Legitimación Tu consentimiento.
  • Destinatarios 1&1 Internet España S.L.U. Politica de privacidad. https://www.ionos.es/terms-gtc//terms-privacy/.
  • Derechos Acceder, rectificar y suprimir los datos.
  • Información Adicional Puede consultar la información detallada en https://hachetml.com/aviso-legal/.

Esta web como la mayoria utiliza cookies para su correcto funcionamiento y para ofrecerte una mejor experiencia de navegación por el sitio. Si continúas navegando estas consintiendo el uso de las mismas. Puedes obtener más información sobre el uso de cookies y como desactivarlas en tu navegador accediendo a la página de la política de cookies:    Ver