Contenido duplicado: causas y soluciones
contenido duplicado

Causas y soluciones del Contenido Duplicado

Los motores de búsqueda como Google tienen un problema y se llama contenido duplicado. Para refrescar conocimientos, contenido duplicado significa que un contenido se está mostrando en varias ubicaciones (URL) de una web. Y como resultado, los motores de búsqueda no saben qué URL mostrar.

Como imagináis, esto daña el ranking de una web. Mucho más cuando esas URL están accesibles a los usuarios y estos empiezan a enlazarlas.

Con este artículo quiero que entiendas las diferentes causas del contenido duplicado y cómo puedes solucionarlo. Pero antes, sigamos con eso de refrescar conocimientos 🙂

¿Qué es el contenido duplicado?

A mi me gusta comparar eso del contenido duplicado con un cruce de caminos en el que vemos dos señales de dos caminos diferentes para un mismo destino. Seguro que en esa situación, lo primero que se nos viene a la cabeza es qué camino elegir.

Como usuario no suele importar mucho, pero para un motor de búsqueda no, porque tendrá que elegir cuál mostrar en sus resultados para no ofrecer dos contenidos iguales y crear una mala experiencia.

Pongamos como ejemplo la “palabra clave x”. La tenemos con el mismo tipo de contenido en dos URL diferentes como ejemplo.com/palabra-clave-xejemplo.com/categoria/palabra-clave-x. Una situación que en principio puede parecer ficticia pero que se repite en un montonazo de sitios. Imaginad que ahora algunos usuarios enlazan la primera URL y otros la segunda.

Aquí está el problema para un motor de búsqueda. Dos enlaces con un mismo contenido promoviéndose en diferentes URL es contenido duplicado. De manera que si solamente tuviéramos una URL, las probabilidades de que “palabra clave x” fuera clasificada más arriba en resultados serían mucho mayores.

Contenido relacionado: Cómo hacer una perfecta estructura SEO.

1. Causas del contenido duplicado

Hay muchísimas razones que causan contenido duplicado y la mayoría son de carácter técnico. Ocurre sobre todo porque hay desarrolladores (que me perdonen, porque no son todos) que no terminan de pensar como lo haría un navegador o como lo haría un usuario. Por no hablar de las arañas de los motores de búsqueda.

Vamos a ver por qué surge el contenido duplicado:

1.1. No entender lo que es una URL

Si te fijas, tu web está alimentada por una base de datos. En esa base de datos, un articulo tiene una identificación, independientemente de la URL que tenga. Para el motor de búsqueda ocurre lo contrario, ya que el único identificador que tiene es la URL.

1.2. ID de sesión

Lo más normal es que cuando realizas un seguimiento de las visitas, les des a cada una una variable que se llama “sesión”. Una sesión es básicamente una breve historia de lo que el usuario hizo en la web. Y puede tener cosas como por ejemplo los carritos de la compra.

Para mantener esa sesión y su trackeo, hay que tener un ID único de sesión, y esa ID necesita estar almacenada en alguna parte. La solución más común y que seguro que habéis escuchado son las cookies. Y aquí viene el problema, porque por lo general, los motores de búsqueda no almacenan cookies.

Os explico por qué. Algunos sistemas utilizan ID de sesión en la URL. Esto significa que cada enlace en la página web obtiene esa ID de sesión y añade la URL. Debido a que la ID de sesión es única para cada sesión, se crea una nueva URL, y por tanto, un nuevo contenido duplicado.

1.3. Parámetros URL de seguimiento y clasificación

Otro motivo de contenido duplicado es el uso de parámetros de URL que no cambian el contenido de una página. Como por ejemplo, en el seguimiento de enlaces.

Tenemos /palabra-clave-x/ y /palabra-clave-x/?source=rrss. Para un motor de búsqueda, no son la misma URL, eso es cierto, porque la última de ellas permite hacer un seguimiento de los usuarios que vinieron desde redes sociales, pero también hay ocasiones en las que su popularidad ha terminado por posicionarla por encima de la principal. Es un efecto secundario que nadie espera.

Esto no sólo tiene que ver para el seguimiento de fuentes, sino que vale para cada uno de los parámetros de una URL. En especial para los ecommerce que utilizan tantas modificaciones para organizar su contenido según la selección del usuario (como talla, color, etc). Todos son contenidos duplicados si no se utilizan bien.

1.4. Copias y Scrapers

Que te copien contenido sin citar la fuente original no es agradable para nadie, porque una vez identificados los dos contenidos, el motor de búsqueda no sabe en ocasiones cuál ofrecer. Son los denominados scrapers, copian tu contenido para sitios más o menos populares, ganando autoridad y convirtiéndote en contenido duplicado.

1.5. Orden de los parametros

Otra de las causas más comunes de contenido duplicado la encontramos en los CMS que no utilizan direcciones URL amigables y limpias sino más bien algo así /?id=1&cat=2, donde ID se refiere al artículo, y cat (que no gato), la categoría. La dirección /?cat=2&id=1 da los mismos resultados y para un motor de búsqueda es otra URL.

1.6. Paginación de comentarios

En WordPress (al que defiendo como CMS, todo hay que decirlo) hay una opción de paginar los comentarios. Esto lleva a contenido duplicado al ser diferentes URL, /comment-page-1/ y /comment-page-2/, con exactamente el mismo contenido.

1.7. www vs. no-www

De libro uno de los más antiguos problemas de contenido duplicado. Pero es que a veces los motores de búsqueda se equivocan cuando las dos versiones son accesibles. Una situación menos común, pero también muy vista es la de http vs. https, donde el mismo contenido se ve sin importar qué pongas.

contenido duplicado seo

2. La solución más común: una dirección URL canónica.

Como expliqué anteriormente, el hecho de que varias URL lleven al mismo contenido es un problema, pero se puede resolver. Nosotros mismos somos la solución, ya que me juego lo que queráis a que somos lo bastante capaces para decidir qué URL es la correcta para un determinado artículo. La URL correcta para los motores de búsqueda se llama canónica, a la que seguro que conocéis más si digo canonical.

Contenido relacionado: Por qué tu estrategia SEO tiene que empezar con una auditoría.

3. Cómo identificar contenido duplicado

Es posible que estemos hablando de contenido duplicado y no sepas ni cómo detectarlo. Bien, suele pasar. A mi me ha pasado muchísimas veces así que aquí tienes unos métodos para saber si lo haces.

3.1. Google Search Console

Google Search Console es una gran herramienta para saber si tienes contenido duplicado. Una vez estás en la web que quieres consultar, en el menú de la izquierda tienes Apariencia en el buscador, y ahí unas Mejoras de HTML que te van a dar una breve guía.

Lo jodido es cuando tenemos una web con muchas categorías y títulos aleatorios. Por ejemplo, cuando queremos posicionar palabra clave x y tenemos algo así como “palabra clave x – categoría x – sitio web” y también “palabra clave x – categoría y – sitio web“. Google no recoge esto, pero lo podemos encontrar fácil mediante la búsqueda. Sigue leyendo.

3.2. Búsqueda de títulos o fragmentos

Si por ejemplo queremos encontrar todas las URL de nuestra web que contengan la palabra clave x en el artículo tan sólo tenemos que escribir lo siguiente, site:ejemplo.com intitle:”palabra clave x”. Google mostrará entonces todas las páginas de ejemplo.com que contienen la palabra clave x en el título. Cuanto más especifico sea el intitle, más fácil será eliminar contenido duplicado.

Google Search Console - Contenido Duplicado

4. Soluciones al contenido duplicado

Una vez que has decidido que URL es la correcta, tenemos que iniciar un proceso para decirle al motor de búsqueda lo que debe clasificar cuando se encuentre con más de una URL. Así que vamos a ver cómo hacerlo:

4.1 Evita el contenido duplicado

Algunas de las causas que puse anteriormente tienen soluciones muy sencillas:

  1. ID de sesión: deshabilitarlas en la configuración del CMS de tu sitio.
  2. Uso de la paginación en comentarios: los deberías tener quitados. Aunque por si acaso, te dejo Disqus. A mi me gusta mucho usarlo.
  3. Orden de los parámetros: habla con tu programador para construir una secuencia de comandos para que siempre los ordene en el mismo orden.
  4. Seguimiento de enlaces: en la mayoría de casos puedes hacerlo usando el hashtag “#” en lugar de “?” como etiqueta, ya que lo que queda a la derecha no es rastreable por los motores de búsqueda.
  5. Www o no-www: elige uno y agárrate a él todo lo que puedas. El proceso de migración es muy duro pero al final merece la pena tener una web bien clasificada. Aunque por otro lado, también puedes establecer una preferencia en el Search Console, pero tendrás que reclamar ambas versiones.

Y si tu problema no se resuelve con facilidad, no te preocupes, hay otros métodos pero tendrás que poner mayor empeño para resolverlos. Vamos a ellos.

4.2. Redirige el contenido duplicado: 301

En algunos casos es jodido evitar que haya contenido duplicado por como se crean las URL, pero en la mayoría de veces es posible redireccionarlas. Antes de hacerlo, asegúrate de hacerlo al lugar correcto porque de lo contrario lo que harás es cargarte aún más la indexación y rastreabilidad (cómo suena esto ¿verdad?) de tu web. Te lo digo por experiencia, que yo ya la cagué muchas veces.

4.3. Uso de enlaces rel=”canonical”

Hay veces en las que uno no quiere, o mejor, no puede deshacerse de una versión duplicada de un artículo, pero si que sabes que la URL es incorrecta. Por esa cuestión específica, los motores de búsqueda han introducido el elemento rel=”canonical”, que se coloca dentro de la web.

Es básicamente un suave redireccionamiento 301 para los motores de búsqueda, sin que ello afecte al usuario. John Mueller de Google dijo hace muchísimos años (en 2010) que es un proceso más lento que el 301 así que si tienes la opción, mejor un 301 hasta que se diga lo contrario.

No hay que confundirla con el rel=”alternate”, ya que este lo que nos muestra es el contenido idóneo para una región, como por ejemplo en el caso de los medios, se duplican noticias, con algunos matices y establecemos con un rel=”alternate” más hreflang=”es” el idioma (en este caso “es” significa español).

4.4. Enlace HTML

Si no puedes hacerlo de ninguna de las formas anteriores, añadir un enlace al artículo original puede ser una buena idea. Aunque no solucione gran cosa, si Google encuentra, por ejemplo, que en algunos feed de RSS hay un enlace apuntando a ese contenido, entonces es probable que lo tenga en cuenta.

5. Conclusiones

Es difícil evitarlo. El contenido duplicado ocurre en todas partes. Todavía me cuesta encontrar una web con más de 1.000 páginas sin al menos, un problema de contenido duplicado. Es algo a lo que tienes que prestar atención todo el tiempo. Se puede solucionar y la recompensa es lo más porque tu contenido angular puede elevarse a las primeras posiciones con solamente solucionar el duplicado.

Ah! Antes de terminar, te quiero pedir una cosa. Comparte si te ha gustado! :-). Aquí tienes el enlace listo para tuitearlo!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *