Robots.txt
Explicación breve
El archivo robots.txt es un archivo de texto que es importante para indexar el contenido de la página web. Este archivo permite a los operadores de páginas web especificar cuáles de las subpáginas deben capturar e indexar los rastreadores, como Googlebot, y cuáles no. Por lo tanto, el archivo robots.txt también es extremadamente interesante para la optimización de motores de búsqueda.
Explicación detallada
La base del archivo robots.txt y del control asociado de la indexación es el “Estándar de Exclusión de Robots” publicado en 1994, comúnmente abreviado como REP, por sus siglas en inglés. En él se definen determinadas formas en las que los operadores de páginas web pueden controlar los rastreadores de los motores de búsqueda y su trabajo. Sin embargo, debemos ser conscientes de que el archivo robots.txt no es más que una guía para los motores de búsqueda y que estos no tienen que cumplirlo necesariamente. Este archivo no permite asignar derechos de acceso ni impedir el acceso. No obstante, los principales buscadores como Google, Yahoo y Bing se han comprometido a cumplir la esta Directiva, así que con el archivo robots.txt puede controlar la indexación de su propia página web con gran fiabilidad.
Para garantizar la lectura del archivo, este debe estar ubicado en el directorio raíz del dominio y tanto su nombre completo como la mayoría de las instrucciones dentro del propio archivo deben escribirse en minúsculas.
Además, hemos de tener en cuenta que es posible que las páginas se indexen incluso aunque estén excluidas de la indexación en robots.txt. Este es especialmente el caso de las páginas con muchos backlinks, los cuales son un criterio importante para los rastreadores web de los motores de búsqueda.
¿Cómo se configura el archivo robots.txt?
La estructura del archivo es muy simple. Al principio, se determinan los llamados “agentes de usuario”, para los cuales se aplican las reglas posteriores. Básicamente, un agente de usuario no es más que un rastreador de un motor de búsqueda. Sin embargo, para poder introducir los nombres correctos, es necesario saber cómo han designado a su agente de usuario los proveedores individuales. Los agentes de usuario más comunes son:
• Googlebot (motor de búsqueda normal de Google)
• Googlebot-News (un bot que ya no se usa, pero cuyas instrucciones también sigue el Googlebot normal).
• Googlebot-Image (Búsqueda de imágenes de Google)
• Googlebot-Video (Búsqueda de vídeos de Google)
• Googlebot-Mobile (Búsqueda móvil de Google)
• Adsbot-Google (Google AdWords)
• Slurp (Yahoo)
• Bingbot (Bing)
La primera línea de robots.txt podría ser así: “User-agent: Googlebot. Una vez se han definido los agentes de usuario deseados, es el turno de las instrucciones. Normalmente, estas comienzan con “Disallow” y acto seguido el administrador especifica qué directorio o directorios debería ignorar el rastreador al efectuar la indexación. Como alternativa al comando “Disallow”, se puede hacer primero una entrada “Allow”. Esto hace que sea más fácil separar qué directorios deberían usarse para la indexación y cuáles no. La entrada “Allow” no es obligatoria, pero el comando “Disallow” sí lo es.
Además de directorios individuales, en “Disallow” (o “Allow”) también se pueden ajustar lo que se conoce como wildcards o comodines, a través de los cuales se pueden definir normas generales para la indexación de directorios. Primero, está el asterisco (*), que se puede usar como comodín para cualquier secuencia de caracteres. Por ejemplo, la entrada “Disallow: *” podría excluir el dominio completo de la indexación, mientras que con “User-agent: *” se pueden configurar reglas en el dominio para todos los rastreadores web. El segundo comodín es el signo de dólar ($). Con él se puede especificar que un filtro solo debe aplicarse al final de una secuencia de caracteres. Con la entrada “Disallow: *.pdf$” podrían excluirse de la indexación todas las páginas que terminen en “.pdf”.
Además, en el archivo robots.txt también se puede hacer referencia a un mapa del sitio XML. Esto requiere una entrada de acuerdo con el siguiente patrón: “Sitemap: http://www.ejemplo.com/sitemap.xml”. Además, se pueden incluir líneas de comentarios. Para ello, la línea respectiva debe ir precedida de una almohadilla (#).
El archivo robots.txt y el SEO
El archivo robots.txt permite determinar qué subpáginas se incluyen en la indexación de los motores de búsqueda, por lo que está claro que tiene un papel importante para la optimización del motores de búsqueda. Si un directorio del dominio está excluido, no servirá de nada que se apliquen medidas de SEO en sus páginas, ya que el rastreador simplemente las ignorará y no tendrán ningún fruto. Por otra parte, el archivo robots.txt se puede utilizar de forma específica para el SEO, por ejemplo, para excluir ciertas páginas y así evitar penalizaciones por el uso de contenido duplicado.
En general, el archivo robots.txt es extremadamente importante para la optimización de motores de búsqueda, ya que puede tener una gran influencia en el ranking de una página. Debe mantenerse con cuidado, ya que pueden aparecer rápidamente errores que hacen que los rastreadores ignoren páginas importantes. Hay que tener cuidado sobre todo con el uso de comodines, porque un error o un pequeño fallo pueden tener un fuerte impacto. En consecuencia, es recomendable que los usuarios sin experiencia no establezcan restricciones en el archivo, o que solo incluyan restricciones muy limitadas. Posteriormente, se pueden ir determinando otras reglas para que, por ejemplo, las medidas de SEO sean más efectivas.
Ayuda con la creación del archivo robots.txt
Aunque robots.txt es un archivo de texto simple que puede escribirse fácilmente con cualquier editor de texto, tal y como mencionamos en la sección anterior, los errores pueden tener consecuencias importantes y, en el peor de los casos, influir negativamente en el ranking de una página.
Por suerte, si no queremos encargamos directamente de la creación de nuestro archivo robots.txt, en Internet hay muchas herramientas gratuitas que facilitan esta tarea, como Pixelfolk y Ryte. Además, también hay herramientas gratuitas que permiten revisar el archivo, por ejemplo, en TechnicalSEO.com y Ryte. Por supuesto, Google, el motor de búsqueda por antonomasia, también ofrece este tipo de servicios, los cuales pueden iniciarse fácilmente utilizando las Herramientas para webmasters.
Conclusión
A pesar de tener una estructura simple y no requerir muchos conocimientos, el archivo robots.txt es un criterio muy importante cuando se trata de las medidas de SEO y el ranking de una página. Aunque las reglas establecidas en el archivo no son vinculantes, en la mayoría de los casos los agentes de usuario de los motores de búsqueda las implementan correctamente. Por lo tanto, los operadores de páginas web pueden usar robots.txt para determinar rápida y fácilmente qué directorios y páginas de su dominio deben incluirse en la indexación de los motores de búsqueda.
Debido a la gran influencia de este archivo, a la hora de su creación es recomendable empezar con una sintaxis sencilla o utilizar una de las herramientas gratuitas disponibles en Internet. De lo contrario, corremos el riesgo de excluir de la indexación páginas que sí que deberían ser detectadas por los motores de búsqueda, y viceversa.
Únete a más de 53.000 clientes en todo el mundo que ya utilizan Textbroker para su estrategia de marketing