Robots.txt

¿Qué es el archivo robots.txt?

Si tienes una página web y observas el crecimiento que ha surgido gracias a tus estrategias SEO. ¿Y cómo no? De las estrategias propias de marketing de contenidos. Seguro estarás contento y conforme… ¡Y enhorabuena te felicitamos!

Ahora bien, para mantener dicha estrategia es necesario impulsar otras técnicas que mantengan la página web en las búsquedas de los usuarios.

A lo que en este caso serían para que los motores de búsqueda no rastreen aquellas páginas web que no deseas se muestren en la web. Ejemplo de ello serían las páginas de inicio de sesión u otro contenido con datos para el análisis de los dueños del website.

Para esas páginas que deseas ocultar de tu página web la solución es hacer uso del archivo robots.txt

Si adivinamos en este momento te estarás preguntando lo siguiente: ¿Qué es robots.txt? Por fortuna tenemos la respuesta a esa interrogante y es justo el momento para responder.

El archivo robots.txt es, como su nombre indica, un archivo de texto con extensión .txt que ejecuta operaciones administrativas. Es decir, es un archivo de texto que debe ser localizado en el directorio raíz de una página web.

Dicho archivo indica a los motores de búsqueda, o en su defecto a las arañas, qué páginas y archivos de una página web han de ser visitados y cuáles no.

Es decir, indica de forma fácil y sencilla aquellos directorios y subdirectorios. Así como archivos o URLs o de tu página web que no quieres sean rastreados o indexados por los buscadores.

En otras palabras, impiden que los robots ingresen a los archivos y los indexen o los rastreen y los muestren en los resultados de búsqueda.

¿Para qué sirve el robots.txt?

Partiendo del punto anterior, el robot.txt trae ventajas para tu página web, pero, si quieres saber a ciencia cierta: ¿para qué sirve robots.txt?, lo sabrás desde ya.

El archivo robots.txt puntualiza aquellas partes de un dominio que pueden ser analizadas por los rastreadores de los buscadores.

Es decir, gestionan la circulación de los rastreadores hacia tu página web. De igual manera, sirve para que Google no rastree ciertos documentos.

En otras palabras, el robots.txt sirve para dar órdenes a todos los robots de los motores de búsqueda. Ahora bien, las funciones específicas de estos pueden ser las siguientes:

Páginas web: el robots.txt trabaja en las páginas web para controlar el tráfico de los robots. Esto en caso de que creas que el servidor se puede sobrecargar con muchas solicitudes provenientes del rastreador de Google. También se usa para evitar el rastreo de páginas sensibles o en todo caso las que carecen de importancia.
Archivo multimedia: el archivo robots.txt evita que los archivos de imagen y video o audio aparezcan en los resultados de búsqueda. Controlando con ello el acceso a datos importantes como infografías o detalles técnicos. Sin embargo, esto no impide que se produzcan enlaces externos hacia tu archivo multimedia.
Archivo de recursos: en esta instancia, el robots.txt bloquea el acceso a secuencias de comando y de estilo que no resulten de gran importancia para tu página web. Se debe estar consciente de que impedir este tipo de rastreo no afectará el rendimiento de tu página web. Es decir, que no surjan complicaciones por alguna dependencia a un recurso de estos.
SEO: un archivo robots.txt aporta valor a la estrategia SEO. Es decir optimiza el posicionamiento orgánico de tu página web aumentando el tráfico de una página. Lo que con ello aumenta la posibilidad de llegar al cliente objetivo.

¿Cómo crear el archivo robots.txt?

A pesar de que el simple hecho de configurar robots.txt suena intimidante, lo cierto es que es todo lo contrario. Crear el archivo robots.txt es fácil y sencillo de comprender.

Y lo mejor de todo es que el archivo robots.txt puede ser creado desde el bloc de notas de tu ordenador.

Acto seguido guarda el fichero con la codificación UTF-8. Esto en caso de que esta opción se encuentre disponible. De igual manera debes acceder a la carpeta raíz de tu dominio que guardará el archivo creado.

Recuerda que el archivo que creaste y guardaste debe llamarse robots.txt.
Y debes crear un solo archivo robots.txt por sitio.
Luego, el robots.txt debe incluirse en la raíz de la página web.

Por ejemplo, un rastreo a todas las URLs: [https://www.example.com/] donde el archivo robots.txt se ubica en: [https://www.example.com/robots.txt] y no en subdirectorio [https://example.com/pages/robots.txt]

En caso de crear un archivo robots.txt para un subdominio, un ejemplo sería: [https://website.example.com/robots.txt] mientras que a puertos no estándar sería [http://example.com:8181/robots.txt].
Ahora bien, recuerda que el robots.txt debe codificarse en UTF-8 donde se anexa ASCII. La razón de esto es que Google y otros motores de búsquedas pueden obviar los caracteres que no se codifiquen en el intervalo de UTF-8. Y de ser así los comandos de robots.txt quedan invalidados.

Para lo anterior es necesario conocer los comandos y la sintaxis de robots.txt para bien aplicarlo en tu página web. De dichos comandos se hablará en el siguiente apartado.

Comando User-Agent

Este comando son los conocidos robots o arañas de los buscadores y representa la primera línea de todas las reglas.

El comando User-Agent señala sobre qué robot se aplicarán las reglas. Y para comprender dichas reglas se debe ejecutar lo siguiente:

Si colocas User-agent: * estás ordenando que las reglas sean para todos los robots.

Ahora bien, si colocas User-agent: Googlebot, estarás determinando que las reglas serán aplicadas solo para el robot de Google y por ende debe cumplirlas.

En caso de que por ejemplo uses Bing el comando sería el siguiente: User-agent: Bingbot

En palabras más fáciles, el comando User-Agent o agente de usuario indica cuál robot permitirás que rastreen tu página web y cuál no.

Comando Disallow

Este comando indispensable señala al User-Agent no ingresar ni indexar o rastrear una URL o directorio y subdirectorio en específico.

El comando Disallow determina las páginas web que no deben anexarse a los resultados de búsqueda.

Es decir, esta directiva establece cuáles directorios o páginas del dominio raíz que el User‑Agent no rastrea ni indexan.

Para escribir este código ingresa el nombre del comando y luego la dirección de la página. Por ejemplo, si quieres que los robots no rastreen la página futbol.com/primera-división de la página web el comando a aplicar es: Disallow: / futbol.com/primera-división

Y si tan solo necesitas bloquear ciertas carpetas, como, por ejemplo, la carpeta de archivos el comando a escribir es: Disallow: / archivos /

Ahora bien, si deseas bloquear el acceso a toda la página web escribe: Disallow: /

Comando Allow

Contrario al Disallow su funcionamiento es el de permitir el acceso a las páginas y directorios.

Su esencia radica qué Allow le indica a los robots que una parte de una página o archivo se encuentra en Disallow: Si quieres que las rastreen.

Si deseas bloquear el acceso a la carpeta «archivos» pero requieres el acceso a la página productos.php el comando a ingresar es el siguiente:

Disallow: / archivos /

Allow: /files/products.php

En caso de que requieras bloquear el fichero archivos y a su vez quieres otorgar acceso a la carpeta planes debes registrar:

Disallow: / archivos /

Allow: / archivos /planes /

Sitemap

El sitemap es un comando opcional aunque muy útil pues este indica la ruta del mapa de tu página web. Esto a fin de que los robots identifiquen todas las páginas que en ella se encuentran.

Este ha caído un poco en la obsolescencia. Sin embargo, los expertos en SEO aún le encuentran provecho, pues este comando señala a los rastreadores la ubicación del sitemap de la página web.

Al sitemap se accede desde el archivo Sitemap ubicado en la carpeta raíz de tu página. Un ejemplo identificativo sería: https://example.com/sitemap.xml

¿Cómo probar el archivo robots.txt en Google?

Si ya has aplicado el archivo robots.txt y quieres comprobar su funcionamiento, puedes utilizar la herramienta de prueba para robot.txt la misma se encuentra en Google Search Console y con ella verificar como Googlebot analiza dicho archivo.

Una vez ubicado en Google Search Console, accede al panel de control y selecciona Rastreo. Luego selecciona el “Probador de robots.txt”.

Ya adentrado en el probador tu archivo robots.txt se mostrará y si lo deseas puedes editarlo o pegar otro archivo. Luego selecciona la URL del cual comprobar su funcionamiento.

Y para saber si funcionó la herramienta, lanzará dos opciones “permitido” donde la URL no fue bloqueada, o “bloqueado” demostrando dicho bloqueo