Robots txt: Qué es y cómo crear el archivo robots

Robots txt: Qué es y cómo crear el archivo robots

Escrito por: Diligent Team

Un archivo de texto de robots, o archivo robots.txt (a menudo denominado erróneamente como archivo robot.txt) es un elemento imprescindible para toda página web. Añadir un archivo robots.txt a la carpeta raíz de su sitio es un proceso muy sencillo y tener este archivo es en realidad un "signo de calidad" para los motores de búsqueda.

Un robots.txt es simplemente un archivo ASCII o de texto plano que indica a los motores de búsqueda dónde no se les permite ir en una página web - también conocido como la Norma de Exclusión de Robots. Cualquier archivo o carpeta que aparezca en este documento no será rastreado e indexado por las arañas de los motores de búsqueda. Tener un archivo robots.txt, incluso uno en blanco, muestra que reconoces que los motores de búsqueda pueden entrar en tu web y que pueden tener libre acceso a él. Es recomendable añadir un archivo de texto de robots al dominio principal y a todos los subdominios de la página web.

¿Cómo crear el archivo Robots.txt?

Debes tener acceso a la raíz de tu dominio. Tu proveedor de alojamiento web puede ayudarte a saber si tienes o no el acceso adecuado. La parte más importante del archivo es su creación y ubicación. Utiliza cualquier editor de texto para crear un archivo robots.txt.

Por último, deberás asegurarse de que tu archivo robots.txt sea un archivo de texto codificado en UTF-8. Google y otros motores de búsqueda y rastreadores populares pueden ignorar los caracteres fuera del rango UTF-8, lo que puede hacer que tus reglas de robots.txt no sean válidas.

Establece tu agente de usuario

El siguiente paso en cómo crear archivos robots.txt es establecer el agente de usuario. El agente de usuario se refiere a los rastreadores web o motores de búsqueda que se desea permitir o bloquear. Varias entidades pueden ser el agente de usuario. GoogleBot, Bingbot, Slurp Bot, DuckDuckBot y Facebot son algunos ejemplos de agentes de usuario.

Establece las reglas del archivo

Un archivo robots.txt se lee en grupos. Un grupo especificará quién es el agente de usuario y tendrá una regla o directiva para indicar a qué archivos o directorios puede o no puede acceder el agente de usuario.

Estas son las directivas utilizadas:

Disallow: La directiva se refiere a una página o directorio relativo a su dominio raíz que no quiere que el agente de usuario nombrado rastree. Comenzará con una barra diagonal (/) seguida de la url completa de la página. Terminará con una barra diagonal solo si se refiere a un directorio y no a una página completa. Puedes utilizar una o más configuraciones de disallow por regla.
Allow: La directiva se refiere a una página o directorio relativo a su dominio raíz que desea que el agente de usuario nombrado rastree. Por ejemplo, se utilizaría la directiva allow para anular la regla disallow. También comenzará con una barra inclinada (/) seguida de la url completa de la página. Se terminará con una barra diagonal solo si se refiere a un directorio y no a una página completa. Puedes utilizar una o varias opciones de permiso por regla.
Sitemap: El sitemap es opcional y da la ubicación del mapa de la página web. La única estipulación es que debe ser una URL completamente cualificada. Puedes utilizar cero o más, dependiendo de lo que sea necesario.

Los rastreadores web procesan los grupos de arriba a abajo. Como se ha mencionado anteriormente, acceden a cualquier página o directorio que no esté explícitamente configurado como disallow. Por lo tanto, añade Disallow: / debajo de la información del agente de usuario en cada grupo para bloquear esos agentes de usuario específicos para que no rastreen tu página web.

Sube tu archivo

Las páginas web no vienen automáticamente con un archivo robots.txt ya que no es necesario. Una vez que decidas crear uno, carga el archivo en el directorio raíz de tu página web. La carga depende de la estructura de archivos de tu web y de tu entorno de alojamiento web. Ponte en contacto con tu proveedor de alojamiento para que te ayude a subir el archivo robots.txt.

Hay varias formas de probar y asegurarte de que tu archivo funciona correctamente. Con cualquiera de ellas, podrás ver cualquier error en su sintaxis o lógica. Estas son las más utilizadas:

El comprobador de robots.txt de Google en Search Console.
El Validador de robots.txt y TestingTool de Merkle, Inc.
La Test Tool robots.txt de Ryte.

Categorías : Analítica web, Funcionalidad
Etiquetas: Analítica Web Posicionamiento en Google robot txt

Blog Archives

Latest Posts

Monthly

Categories