¿Para qué sirve y cómo configurar robots.txt?

Vamos a dedicar este post a hablar de un gran desconocido como es el archivo robots.txt, un archivo fácil de crear y como decíamos en muchas ocasiones uno de los grandes olvidados a la hora de hacerlo sobre todo si no tenemos los conocimientos suficientes ya que tendemos a despreciarlos en favor de otras prácticas Seo.

El motivo por el que me he decidido a realizar este post sobre el archivo robots.txt es porque resulta verdaderamente importante a la hora de decirle a los buscadores qué queremos que se indexe en nuestra web y qué no.

Explicaremos qué es para qué sirve y cómo configurarlo para que podáis hacerlo vosotros mismos si es que no lo habéis hecho ya. Ahora ya sí, sin más dilación vamos a ello.

¿Qué es el archivo robots.txt?

El archivo robots.txt es el archivo encargado de decirle a los robots de los buscadores que llegan a nuestra web qué páginas deben de rastrear y cuáles no, ya que estos robots no suelen rastrear las webs enteras. Con este archivo informamos a los buscadores de las restricciones que hemos implementado en nuestra página web además de mostrarle la localización de nuestro sitemap.

Con la acción que os acabamos de mencionar lo que conseguimos es que los buscadores encuentren fácilmente nuestro archivo sitemap.xml pudiendo encontrar todas las páginas sin necesidad de rastrear nuestros enlaces.

¿Cómo sé si mi web tiene el robots.txt? Hay una manera realmente sencilla de comprobarlo. Únicamente tenéis que escribir en la barra de direcciones http://nombredevuestraweb.es/robots.txt. Lógicamente donde pone nombredevuestraweb tenéis que poner el nombre de vuestro dominio.

Y si no tenemos este archivo¿ no será indexada nuestra web? Tranquilos que una cosa no tiene que ver con la otra. Si no lo tenemos nuestra web será igualmente indexada , lo que ocurre es que lo será sin ningún tipo de restricción.

Entonces ¿Qué es lo que hace el archivo robots.txt?

Al configurar el robots.txt le estamos diciendo a los buscadores qué páginas queremos que mire y cuáles no. ¿Y no sería más sencillo que lo mirase todo y ya está? En realidad no tenemos nada que ocultar. Pues la verdad es que no sería mejor y esto es así por dos razones

Tasa límite de rastreo

Según nos dice Google son la cantidad de conexiones paralelas simultáneas que Googlebot puede usar para rastrear el sitio así como el tiempo de espera entre recuperaciones.

Demanda de rastreo

Grosso modo es el número de páginas que el robot de Google va a rastrear. Es por eso que tenemos que ayudarle a que mire en nuestra web aquello que a nosotros nos interesa.

En resumen con una buena configuración de nuestro archivo robots.txt estaremos consiguiendo varias cosas como son impedir que nuestra web sea rastreada si la tenemos en construcción, que se indexen contenidos que no queremos que se indexen o evitar la indexación de contenido duplicado cosa que como es realmente muy penalizada por los buscadores.

Cómo configurarlo correctamente

Configurar tu archivo robots.txt es realmente sencillo. En el caso de WordPress tienes plugins que ya lo traen directamente configurado aunque con una configuración de mínimos. Si queréis configurarlo por vosotros mismos necesitaréis un sencillo editor de textos, como por ejemplo el bloc de notas que viene con Windows.

Aquí os dejo un ejemplo de cómo configurar un sencillo archivo robots.txt

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.tuweb.es/sitemap.xml

Vamos a ver qué son cada una de estas instrucciones. Con la primera línea nos estamos refiriendo al nombre del robot al que nos referimos. Al poner el * estamos haciendo referencia a todos los robots. Si escribimos Disallow le estamos indicando aquellas páginas que no queremos que rastree. En este caso le indicamos que no queremos que entre en nuestra carpeta de administración. Al escribir Allow lógicamente le indicamos lo contrario. Por último con Sitemap le indicamos dónde puede encontrar nuestro Sitemap.

Como ya os he explicado este sería un archivo robots.txt básico. A partir de aquí podemos añadir cualquier cosa que no nos interese que rastreen los robots como por ejemplo aquellas páginas que contengan contenido duplicado o las páginas en las que se encuentren nuestras políticas de privacidad.

Una vez que ya hayas creado el archivo robots tendrás que subirlo al servidor. Este archivo tiene que ser colocado en la raíz del dominio de tu sitio web. Si no sabes de qué te estoy hablando, tienes que saber que como norma general la carpeta raíz suele ser htdocs o bien public_html. Una vez que ya la hayas localizado tendrás que subirla bien a través de FTP o bien a través de tu Cpanel.

Si eliges la primera opción, a través de FTP tendrás que conectarte al servidor.Una vez hecha la conexión e identificado ya podrás subir tu archivo. Si por el contrario vas a subirlo con Cpanel tendrás que localizar tu panel de control y hacer clic sobre file manager, y al abrirse aparecerán los ficheros de tu página. Le damos a upload y ya tenemos nuestro archivo subido.

Deja un comentario