He leído y acepto la política de privacidad

    Acepto recibir contenido o propuesta comercial de diligent

    Robots.txt, qué es este archivo y para qué sirve

    Escrito por: Diligent Team

    Si estás mínimamente metido en el mundo web, aunque sea simplemente como blogero o en el mundo del marketing digital, seguro que has oído una y mil veces hablar del archivo robot.txt. Es posible que te suene a algo casi mitológico y que no tengas claro de qué es capaz de hacer y qué no. Precisamente por eso hoy os quiero hablar de los robots.txt.

    Se trata de una parte fundamental de cualquier web, pero es cierto que existen algunos mitos con respeto a él y muchas interpretaciones erróneas sobre qué hace y para qué sirve, como por ejemplo que su trabajo es bloquear el acceso a ciertas zonas de la web, cuando en realidad no hace eso.

     

    ¿Qué es el archivo robots.txt?

    Los buscadores como Google o Bing (sí, hay otros buscadores además de Google, aunque no siempre lo parezca) son "monstruos hambrientos en permanente busca de alimento". En cuanto detectan que hay una nueva página web, envían a sus secuaces (arañas y bots) para rastrear, analizar e indexar su contenido. Cuando estas arañas llegan a tu web, lo primero que hacen es buscar el archivo robots.txt.

    Este archivo no es más que una guía, ofrece indicaciones sobre qué partes de la web pueden acceder y a cuales no.

    Sin embargo, mucha gente entiende esto como que "bloquea" el acceso a determinadas áreas, pero no es así. Este archivo es más una sugerencia que una orden y puede haber robots que la sigan y otros que no. Si una página de una web es accesible para un ser humano sin necesidad de contraseñas ni nada, también lo es para una araña.

    Los robots de los grandes buscadores sí que siguen estas indicaciones a la hora de indexar el contenido, pero por lo general sí que escanearán toda la web. Y esto no es malo. Imagínate que, por ejemplo, no quieres que Google indexe las páginas de las etiquetas. Sin embargo, que las escanee y siga los enlaces puede ser útil, porque podrá llegar a partes de la web que, de otra forma, quedarían aisladas.

     

    ¿Por qué es importante el archivo Robots.txt?

    Si, por mucho que diga algo en el archivo, el robot va a hacer lo que le de la gana ¿por qué es tan importante?, te estarás preguntando, siempre tan observador. Pues bien, aunque solo son indicaciones, este archivo es fundamental para indicar a la araña qué partes de tu web tiene que priorizar. En páginas web grandes, como puede ser una tienda online donde se pueden superar fácilmente las 5000 URLs, haciendo que el bot no pierda tiempo en secciones que no te interesan y a lo mejor deje otras fundamentales sin indexar adecuadamente. Esto en paralelo es importante para el buen SEO de tu web.

    Robots.txt qué es y para qué sirve

     

     

    Cómo crear este archivo

    Técnicamente hablando, crearlo es insultantemente fácil: solo necesitas un bloc de notas y guardar el archivo con el nombre robots.txt (ninguna sorpresa aquí).

    Lo que ya no es tan fácil es optimizarlo de forma adecuada. Deberás tener en cuenta unas normas básicas, como usar únicamente caracteres permitidos, que hay diferencia entre minúsculas y mayúsculas, que entre cada User-agent y cada Disallow deberán ir separados por una línea totalmente en blanco. Además, los comentarios se deben introducir con una almohadilla (#).

    Por lo demás, los principales comandos para dar indicaciones al robot son:

    • User-agent: indica qué tipo de robot debe cumplir con las siguientes directivas.
    • Disallow: deniega el acceso a un directorio o página.
    • Allow: permite el acceso a un directorio y página.
    • Sitemap: este es fundamental, ya que indica la ruta donde se encuentra tu mapa del sitio en XML.
    • Crawl-delay: apunta cuántos segundos debe esperar entre el rastreo de cada página.
    • Asterisco (*): Vale por una secuencia cualquiera de caracteres.
    • Dólar ($). Indica el final de una URL en cualquier archivo que acabe con la extensión .php.  Es decir,  acabaríamos la dirección con un /*.php$.

    Espero que esta entrada os haya servido para entender un poco mejor cómo funcionan estos archivos. ¡Hasta la próxima!

    Alimenta con lectores tu blog

    Recibe el ebook en formato pdf y empieza a desarrollar tu blog desde hoy.

      Acepto las política de privacidad

      Acepto recibir la newsletter de diligent

      Al darte de alta te suscribes a la newsletter de diligent. Solo te enviaremos contendido interesante para proyectos digitales

      ×
      Del blog al éxito

      Recibe el ebook en formato pdf y empieza a desarrollar tu blog desde hoy.

        Acepto las política de privacidad

        Acepto recibir la newsletter de diligent

        Al darte de alta te suscribes a la newsletter de diligent. Solo te enviaremos contendido interesante para proyectos digitales

        ×
        Como triunfar con tu tienda online

        Descarga el eBook en Formato PDF y empieza a desarrollar tu tienda online.

          Acepto las política de privacidad

          Acepto recibir la newsletter de diligent

          Al darte de alta te suscribes a la newsletter de diligent. Solo te enviaremos contendido interesante para proyectos digitales

          ×
          Fotografía de producto

          Descarga el eBook en Formato PDF y empieza a desarrollar tu tienda online.

            Acepto las política de privacidad

            Acepto recibir la newsletter de diligent

            Al darte de alta te suscribes a la newsletter de diligent. Solo te enviaremos contendido interesante para proyectos digitales

            ×