Avisos
Vaciar todo

Rastreo de URLs borradas  

 
Francisco Javier
 Francisco Javier
Usuario activo

Buenos días

Llevo varias semanas revisando los logs del servidor. A principios de septiembre me di cuenta de que Googlebot rastreaba antiguas URLs del blog. Estas URLs cuelgan directamente del dominio (ejemplo: dominio.com/nuevo-post/). Después de una modificación hace más de un año (si no recuerdo mal) las URLs del blog cuelgan de la carpeta /blog/ (ejemplo: dominio.com/blog/nuevo-post/).

Revisando los archivos en cPanel vi que la carpeta "cache_old" contenía archivos con las antiguas URLs del blog. El pasado lunes 16 de septiembre eliminé esos archivos.
Además, el martes 17 de septiembre se eliminó el contenido de la carpeta "trashed posts" de la base de datos, que incluía 171 contenidos.

Al revisar nuevamente los logs de final de septiembre y de octubre he comprobado que Googlebot sigue rastreando esas antiguas URLs del blog. Mi duda es la siguiente: ¿es posible que aún haya archivos antiguos con esas URLs en el servidor? En caso de ser así, ¿me podrían ayudar a encontrarlos?

Otra opción es que el rastreo de esas URLs se deba a enlaces que Googlebot encuentra fuera del sitio web.

Quedo a la espera. Gracias de antemano

Contenido solo visible a usuarios registrados

Citar
Respondido : 17/10/2024 11:56 am
Pepe
 Pepe
Soporte CMS Webempresa Admin

Hola Francisco Javier.

 la carpeta "cache_old" contenía archivos con las antiguas URLs del blog.

Es una carpeta de cache renombrada que no tiene ningún efecto, incluso puedes eliminarla.

 ¿es posible que aún haya archivos antiguos con esas URLs en el servidor? 

WordPress suele generar automáticamente un sitemap XML que contiene un listado de todas las URL de un sitio. este Archivo es el que utiliza Google para indexar las páginas. 

Los plugins de SEO como Yoast SEO o Rank Math generan automáticamente un sitemap XML. La URL del sitemap de tu sitio es:

-> https://sernagrp.com/sitemap_index.xml

Para eliminar URLs puedes hacerlo desde Google Search Console:

.- Accede a Google Search Console

.- Selecciona Retirada de URLs

screenshot search google com 2024 10 17 13 23 43

.- Pulsa en " Nueva solicitud " y añade las URLs que quieres retirar.

Una vez lo tengas:

.- Accede a Sitemaps en Google Search Console y vuelve a mandar el Sitemap.

 

Un Saludo

ResponderCitar
Respondido : 17/10/2024 12:28 pm

optimiza-automaticamente-todas-las-imagenes-de-tu-wordpress

Francisco Javier
 Francisco Javier
Usuario activo

Hola @pepesoler

Muchas gracias. El problema no tiene que ver con el sitemap ni con la indexación. Las URLs del sitemap las tengo controladas y la indexación también. 

La cuestión es que Google rastrea URLs antiguas de la web y solo se me ocurren 2 opciones:
-Las URLs están todavía presentes en algún sitio en mi Wordpress.

-Las URLs las encuentra enlazadas en otras páginas: empiezo a pensar que es esto último porque soy consciente de que hay URLs antiguas que están enlazadas en diferentes páginas. 

 

Las URLs están redireccionadas a las nuevas. La cuestión, insisto, es intentar averiguar cómo llega Google a ellas para ver si puedo evitar que las rastree y rastree solo las URLs nuevas. 

 

Saludos

ResponderCitar
Respondido : 17/10/2024 4:03 pm
Bruno
 Bruno
Soporte CMS Webempresa Moderator

Que tal Francisco Javier,

Considerando lo que nos comentas debemos tener presentes si las redirecciones de estas URLs antiguas en efecto estan funcionando o bien hay URLs consideradas como antiguas sin redirección

Las URLs están redireccionadas a las nuevas. La cuestión, insisto, es intentar averiguar cómo llega Google a ellas para ver si puedo evitar que las rastree y rastree solo las URLs nuevas.

Recordemos que cada URL con redirección Google tomara como respuesta válida el resultado final de dicha consulta, quiere decir la URL redireccionada

En estos casos lo recomendable es validar lo siguiente

1-Revisar todas las posibles URLs que se consideran "antiguas" y establecer que accion a tomar si redireccionar o de plano cambiarlas manualmente en el contenido

2-Luego de hacer los ajustes pertinentes, forzar una nueva indexacion a Google cargando el mapa del sitio actualizado a Search console

3-Esperar a los resultados de la nueva indexacion

Saludos!

ResponderCitar
Respondido : 17/10/2024 4:26 pm

wpdoctor-revisa-la-salud-de-tu-wordpress

Francisco Javier
 Francisco Javier
Usuario activo

Hola @bruno-vichetti

Gracias por tu ayuda. 
Todas las redirecciones están funcionando, porque siempre que Google accede a ellas (o cualquier usuario) se genera un 301. Así lo he visto en el análisis de logs del servidor, en numerosas ocasiones, y así lo he comprobado en diferentes navegadores.

Respecto a los otros puntos que me comentas, creo que no está quedando claro el problema que planteo o yo no te he entendido.
Las URLs nuevas están indexadas. Las URLs antiguas no están indexadas. No hay que forzar ninguna indexación.

Googlebot está rastreando las URLs nuevas (que están indexadas) y las antiguas (que tienen una redirección 301 y redirigen a las nuevas). Ejemplo: Googlebot rastrea dominio.com/ejemplo-post/ ->(301)->dominio.com/blog/ejemplo-post/ (200).

La cuestión es cómo evitar que siga rastreando las antiguas. Si rastrea las URLs antiguas es porque las encuentra en algún sitio. Es decir, ¿por qué sigue rastreando Google unas URLs redireccionadas desde hace meses o más de un año? ¿Puede ser que haya algún archivo con esas URLs en el servidor? ¿Estarán enlazadas en páginas externas y Google las localiza fuera de mi sitio web?

 

Saludos

ResponderCitar
Respondido : 17/10/2024 4:54 pm
Bruno
 Bruno
Soporte CMS Webempresa Moderator

Hola Francisco Javier,

Vale agradezco tu explicación detallada, mis sugerencias son basadas a una previa indexacion que pudiese contener las URLs antiguas, ya has presentado que no es el caso

La cuestión es cómo evitar que siga rastreando las antiguas.

Las posibilidades de que aun Google siga pudiendo acceder a estas URLs antiguas es tal como ya has mencionado en respuestas anteriores que dichos enlaces se encuentren disponibles en el contenido como enlaces internos.

Otra posibilidad que no se puede descartar es contemplar de que estos enlaces antiguos puedan figurar como enlaces externos desde otros sitios web, esto ocasiona que aunque los enlaces no existan en la web principal, Google pueda rastrearlos incluso si cuentan con redirecciones o no

Por ultimo otro caso probable es el propio cache que almacena el motor de búsqueda durante cierto tiempo, situación por la cual se sugiere forzar una nueva indexación con un nuevo mapa del sitio como mencione antes

Comentanos si ahora he podido comprender tu solicitud y estamos en la misma sintonia 😊 

Saludos!

 

ResponderCitar
Respondido : 17/10/2024 5:42 pm

Francisco Javier
 Francisco Javier
Usuario activo

Hola @bruno-vichetti

En efecto, ahora sí que hablamos de lo mismo. Descartados los enlaces internos, y casi seguro el asunto de caché (no hemos encontrado esos enlaces excepto en la carpeta antigua que ya borré, y ha pasado más de un año).
Lo más probable, por tanto, es que sean URLs enlazadas en otros sitios web. En ese caso poco podemos hacer. 

Gracias por todo. 

Saludos

ResponderCitar
Respondido : 18/10/2024 4:23 pm
Karen Rios
 Karen Rios
Soporte CMS Webempresa Moderator

Hola Fracisco,

Gracias a ti, es un placer siempre poder ayudarte.

Como comentas, si ya descartaste los enlaces internos y el asunto de la caché, lo más probable es que se trate de URLs enlazadas en sitios externos, sobre las cuales poco podemos hacer directamente.

No dudes en escribirnos si tienes cualquier otra consulta. 

Un Saludo  😊 

ResponderCitar
Respondido : 18/10/2024 4:28 pm

Gestor de Contraseñas - VPN Conexión Segura - Gestor 2FA (Segundo Factor de Autenticación