Estás aquí: textbroker.es » Glosario » Contenido duplicado

Contenido duplicado

Explicación breve

El contenido duplicado (abreviado a veces como “DC”, por sus siglas en inglés) se refiere al contenido web que está disponible de forma idéntica en diferentes direcciones URL en Internet.

Explicación detallada:

El concepto de contenido duplicado, o “duplicate content”, describe al contenido de diferentes páginas web que es muy similar o completamente idéntico. Los motores de búsqueda, como Google, tratan de evitar el contenido duplicado y las páginas web que utilizan (demasiados) contenidos duplicados pueden ser penalizadas. En particular, si se sospecha que una página web ha llevado a cabo una manipulación (p. ej., para fines de SEO), esta puede perder posiciones en el ranking de resultados o dejar de mostrarse por completo.

¿Por qué es malo el contenido duplicado?

Los motores de búsqueda evalúan el contenido duplicado de forma negativa, ya que este no proporciona ningún valor añadido al usuario. Sin embargo, rastrear e indexar cada página web es un proceso que consume muchos recursos.

En el pasado, los operadores de páginas web solían llenarlas de contenido duplicado con frecuencia (también con fines de SEO), por lo que Google comenzó a tomar medidas en contra de esta práctica. Con los cambios en el algoritmo, como la actualización Panda, este motor de búsqueda comenzó a penalizar la clasificación de las páginas con contenido duplicado.

¿Qué ayuda contra el contenido duplicado?

Por regla general, utilizar contenido duplicado no conduce inmediatamente a una penalización en motores de búsqueda. No obstante, como el contenido duplicado puede conllevar una evaluación negativa o incluso hacer que la página deje de mostrarse en los resultados de búsqueda, los propietarios de las páginas web deben de tomar medidas para evitarlo:

Redirecciones 301

Una redirección con un código 301 es útil para llevar al motor de búsqueda y al lector siempre a la página deseada y, por lo tanto, omitir el contenido antiguo. Una redirección 301 es como una sustitución completa de una página existente por una nueva, con una URL diferente (como en un relanzamiento). Así se evita que existan dos páginas con contenido idéntico. En su lugar, el visitante será redirigido siempre a la página correcta, incluso aunque seleccione la URL antigua.

Google considera que esta redirección no es problemática https://support.google.com/webmasters/answer/93633. Eso sí, al hacer redirecciones 301 los operadores de la web tienen que prestar atención para que la nueva página sea un sustituto adecuado de la original y garantizar que la experiencia del usuario siga siendo óptima.

Prestar atención al uso de las URL correctas

Por encima de todo, para evitar el contenido duplicado es muy importante usar las URL correctas. El propio Google aconseja, por ejemplo, prestar siempre atención a la consistencia de las URL, https://support.google.com/webmasters/answer/66359, es decir, usar las direcciones web de forma consistente. Por ejemplo, en estos casos se debería usar siempre la misma versión: www.ejemplo.es/nombre owww.ejemplo.es/nombre/ o www.ejemplo.es/nombre/index.htm.

Los operadores de páginas web también deben usar los “Recursos para webmasters” para especificar la dirección preferida de una página:http://www.ejemplo.com o http://ejemplo.com, etc. En este sentido, la etiqueta canónica (de la que hablamos más adelante) también puede ayudar a identificar la página correcta.

Para especificar mejor el contenido, Google también recomienda usar dominios de nivel superior (TLD, por sus siglas en inglés). Por ejemplo, los administradores de páginas web deberían usar la URL www.ejemplo.es en lugar de es.ejemplo.com.

Muchos sistemas de gestión de contenidos, y de seguimiento pueden crear contenido duplicado de forma inadvertida al rediseñar las URL de las páginas. La paginación o la creación de archivos pueden hacer que el CMS cambie la URL de una página (p. ej.: ejemplo.es/text/022015 en lugar de ejemplo.es/text) y que, por lo tanto, la misma página web exista en diferentes URL. Lo mismo se aplica a los parámetros de seguimiento (generados automáticamente), los cuales añaden un fragmento a continuación de las URL originales. Si el motor de búsqueda no reconoce estos fragmentos de código correctamente, es posible que identifique la URL de seguimiento como una nueva y que cuenta la página por duplicado. En consecuencia, los administradores de páginas web y expertos en SEO deben revisar sus sistemas de análisis y CMS para evitar estas vulnerabilidades.

Minimizar el contenido duplicado

En la medida de lo posible, los propietarios de páginas web deben prescindir del contenido duplicado y producir contenido único. En ocasiones es necesario utilizar los mismos bloques de texto en muchas páginas o de forma redundante, y en ocasiones incluso hace falta duplicar páginas al completo. Sin embargo, los administradores de las webs deberían hacer esto lo menos posible y, en caso necesario, informar al motor de búsqueda de que ya existe una página con el mismo contenido mediante un enlace en el código HTML.

Además del contenido duplicado autogenerado, el contenido duplicado se puede crear cuando el administrador de una página web transfiere o vende el contenido a varias webs o si otras páginas usan el contenido sin permiso. En ambos casos, al identificar el incidente, los administradores de la web deben exigir que quien haya publicado el contenido duplicado incluya un backlink, al contenido original o que lo marque con la etiqueta “noindex”. Esto permite que el motor de búsqueda identifique cuál es el contenido original y cuál es el que no debe indexar.

Utilizar la etiqueta canónica “-/href lang-/noindex” o robots.txt “disallow”

Existen varias etiquetas (en el código fuente) que previenen determinadas formas de contenido duplicado. Por ejemplo, la etiqueta canónica en el área <head> indica a Google que indexe la página a la que apunta esta etiqueta. En este caso, el rastreador debe omitir la copia de esta página (en la que está integrada la etiqueta).

La metaetiqueta “noindex” se usa para indicar al motor de búsqueda que, al rastrear la página, debe abstenerse de indexarla. A diferencia de la entrada disallow en robots.txt, el administrador de la página web permite que Googlebot rastree la página y su contenido.

En el archivo robots.txt se puede usar disallow para evitar el rastreo de páginas enteras, tipos de páginas o tipos de contenido antes de que Google, y cualquier otro motor de búsqueda, lo indexe. El archivo robots.txt es un archivo que rige qué contenido puede capturar el rastreador de un motor de búsqueda. Disallow indica que el motor de búsqueda no tiene acceso al contenido definido.

La etiqueta href lang se puede usar para indicar a los motores de búsqueda que una página se trata simplemente de la traducción de un dominio a otro idioma. Por ejemplo, si existe un dominio .co.uk para el Reino Unido y otro .com para el mercado estadounidense, la etiqueta href lang indica que se trata de otra versión de una misma página, lo que impide que el motor de búsqueda evalúe el contenido como duplicado.

Conclusión:

El contenido duplicado puede ser un problema para los administradores de páginas web y expertos en SEO, ya que los motores de búsqueda son reacios a utilizar sus recursos para rastrear e indexar el contenido duplicado. Al mismo tiempo, Google quiere ofrecer a sus usuarios contenido único. En consecuencia, el contenido duplicado se valora de forma negativa y, en el peor de los casos, puede causar que la página sea penalizada en el ranking de resultados o, en casos de sospecha de manipulación, incluso que deje de mostrarse por completo. Los propietarios de páginas web tienen varias formas de prevenir o corregir el contenido duplicado, incluidas las redirecciones claras, el uso de determinadas etiquetas en el código fuente y la redacción de textos únicos.

« Ver artículo anterior Contenido dinámico

Ir al siguiente artículo » Contenido en silos