Buenos días
Llevo varias semanas revisando los logs del servidor. A principios de septiembre me di cuenta de que Googlebot rastreaba antiguas URLs del blog. Estas URLs cuelgan directamente del dominio (ejemplo: dominio.com/nuevo-post/). Después de una modificación hace más de un año (si no recuerdo mal) las URLs del blog cuelgan de la carpeta /blog/ (ejemplo: dominio.com/blog/nuevo-post/).
Revisando los archivos en cPanel vi que la carpeta "cache_old" contenía archivos con las antiguas URLs del blog. El pasado lunes 16 de septiembre eliminé esos archivos.
Además, el martes 17 de septiembre se eliminó el contenido de la carpeta "trashed posts" de la base de datos, que incluía 171 contenidos.
Al revisar nuevamente los logs de final de septiembre y de octubre he comprobado que Googlebot sigue rastreando esas antiguas URLs del blog. Mi duda es la siguiente: ¿es posible que aún haya archivos antiguos con esas URLs en el servidor? En caso de ser así, ¿me podrían ayudar a encontrarlos?
Otra opción es que el rastreo de esas URLs se deba a enlaces que Googlebot encuentra fuera del sitio web.
Quedo a la espera. Gracias de antemano
Contenido solo visible a usuarios registrados
Hola Francisco Javier.
la carpeta "cache_old" contenía archivos con las antiguas URLs del blog.
Es una carpeta de cache renombrada que no tiene ningún efecto, incluso puedes eliminarla.
¿es posible que aún haya archivos antiguos con esas URLs en el servidor?
WordPress suele generar automáticamente un sitemap XML que contiene un listado de todas las URL de un sitio. este Archivo es el que utiliza Google para indexar las páginas.
Los plugins de SEO como Yoast SEO o Rank Math generan automáticamente un sitemap XML. La URL del sitemap de tu sitio es:
-> https://sernagrp.com/sitemap_index.xml
Para eliminar URLs puedes hacerlo desde Google Search Console:
.- Accede a Google Search Console
.- Selecciona Retirada de URLs
.- Pulsa en " Nueva solicitud " y añade las URLs que quieres retirar.
Una vez lo tengas:
.- Accede a Sitemaps en Google Search Console y vuelve a mandar el Sitemap.
Un Saludo
Hola @pepesoler
Muchas gracias. El problema no tiene que ver con el sitemap ni con la indexación. Las URLs del sitemap las tengo controladas y la indexación también.
La cuestión es que Google rastrea URLs antiguas de la web y solo se me ocurren 2 opciones:
-Las URLs están todavía presentes en algún sitio en mi Wordpress.
-Las URLs las encuentra enlazadas en otras páginas: empiezo a pensar que es esto último porque soy consciente de que hay URLs antiguas que están enlazadas en diferentes páginas.
Las URLs están redireccionadas a las nuevas. La cuestión, insisto, es intentar averiguar cómo llega Google a ellas para ver si puedo evitar que las rastree y rastree solo las URLs nuevas.
Saludos
Que tal Francisco Javier,
Considerando lo que nos comentas debemos tener presentes si las redirecciones de estas URLs antiguas en efecto estan funcionando o bien hay URLs consideradas como antiguas sin redirección
Las URLs están redireccionadas a las nuevas. La cuestión, insisto, es intentar averiguar cómo llega Google a ellas para ver si puedo evitar que las rastree y rastree solo las URLs nuevas.
Recordemos que cada URL con redirección Google tomara como respuesta válida el resultado final de dicha consulta, quiere decir la URL redireccionada
En estos casos lo recomendable es validar lo siguiente
1-Revisar todas las posibles URLs que se consideran "antiguas" y establecer que accion a tomar si redireccionar o de plano cambiarlas manualmente en el contenido
2-Luego de hacer los ajustes pertinentes, forzar una nueva indexacion a Google cargando el mapa del sitio actualizado a Search console
3-Esperar a los resultados de la nueva indexacion
Saludos!
Hola @bruno-vichetti
Gracias por tu ayuda.
Todas las redirecciones están funcionando, porque siempre que Google accede a ellas (o cualquier usuario) se genera un 301. Así lo he visto en el análisis de logs del servidor, en numerosas ocasiones, y así lo he comprobado en diferentes navegadores.
Respecto a los otros puntos que me comentas, creo que no está quedando claro el problema que planteo o yo no te he entendido.
Las URLs nuevas están indexadas. Las URLs antiguas no están indexadas. No hay que forzar ninguna indexación.
Googlebot está rastreando las URLs nuevas (que están indexadas) y las antiguas (que tienen una redirección 301 y redirigen a las nuevas). Ejemplo: Googlebot rastrea dominio.com/ejemplo-post/ ->(301)->dominio.com/blog/ejemplo-post/ (200).
La cuestión es cómo evitar que siga rastreando las antiguas. Si rastrea las URLs antiguas es porque las encuentra en algún sitio. Es decir, ¿por qué sigue rastreando Google unas URLs redireccionadas desde hace meses o más de un año? ¿Puede ser que haya algún archivo con esas URLs en el servidor? ¿Estarán enlazadas en páginas externas y Google las localiza fuera de mi sitio web?
Saludos
Hola Francisco Javier,
Vale agradezco tu explicación detallada, mis sugerencias son basadas a una previa indexacion que pudiese contener las URLs antiguas, ya has presentado que no es el caso
La cuestión es cómo evitar que siga rastreando las antiguas.
Las posibilidades de que aun Google siga pudiendo acceder a estas URLs antiguas es tal como ya has mencionado en respuestas anteriores que dichos enlaces se encuentren disponibles en el contenido como enlaces internos.
Otra posibilidad que no se puede descartar es contemplar de que estos enlaces antiguos puedan figurar como enlaces externos desde otros sitios web, esto ocasiona que aunque los enlaces no existan en la web principal, Google pueda rastrearlos incluso si cuentan con redirecciones o no
Por ultimo otro caso probable es el propio cache que almacena el motor de búsqueda durante cierto tiempo, situación por la cual se sugiere forzar una nueva indexación con un nuevo mapa del sitio como mencione antes
Comentanos si ahora he podido comprender tu solicitud y estamos en la misma sintonia 😊
Saludos!
Hola @bruno-vichetti
En efecto, ahora sí que hablamos de lo mismo. Descartados los enlaces internos, y casi seguro el asunto de caché (no hemos encontrado esos enlaces excepto en la carpeta antigua que ya borré, y ha pasado más de un año).
Lo más probable, por tanto, es que sean URLs enlazadas en otros sitios web. En ese caso poco podemos hacer.
Gracias por todo.
Saludos
Hola Fracisco,
Gracias a ti, es un placer siempre poder ayudarte.
Como comentas, si ya descartaste los enlaces internos y el asunto de la caché, lo más probable es que se trate de URLs enlazadas en sitios externos, sobre las cuales poco podemos hacer directamente.
No dudes en escribirnos si tienes cualquier otra consulta.
Un Saludo 😊