Buenos días.
Estoy trabajando en una página web que lleva unos meses oculta para los motores de búsqueda. Estaba marcada la casilla "Disuade a los motores de búsqueda de indexar este sitio" en ajustes de lectura de wordpress.
Ayer procedí eliminar esa reestricción y a indexar los sitemaps que te proporciona el plugin SEO Yoast en el Search Console de google pero me da un error (url restringida por robots.txt) y no me indexa los sitemaps.
¿ Es cuestión de tiempo o existen otros factores que impidan la indexación de los sitemaps ?
Adjunto capturas de pantalla con los mensajes de error. Gracias y un saludo.
URL del sitio: Contenido solo visible a usuarios registrados
Buenas.
Acabo de quitar esa linea de código pero me vuelve a pasar lo mismo.
Cuando cambio el archivo robots.txt desde el administrador de archivos de cPanel se coordina con el plugin de Seo Yoast así que no creo que ese sea el problema.
¿Puede ser que al llevar unos meses oculta para buscadores la web google tarde en reconocerla y por eso me da los mensajes de error?
Gracias y un saludo.
Hola
Mira, esto es lo que Google ve:
Contenido solo visible a usuarios registrados , entiendo que esta url es la que envías a Google, mejor en tu robots.txt coloca la url de índice de tus mapas y verifica.
Saludos.
Hola.
Cuando escribo en el buscador http://deplatay.es/robots.txt me sale lo siguiente (en el pc y en el móvil obtengo el mismo resultado) :
User-Agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Sitemap: https://deplatay.es/sitemap_index.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: https://www.deplatay.es/post-sitemap.xml
Sitemap: https://www.deplatay.es/page-sitemap.xml
Sitemap: https://www.deplatay.es/hosting-sitemap.xml
Es cierto que se han generados varios sitemaps en mi wordpress pero no creo que esa sea la causa del bloqueo por parte del archivo robots,txt que es lo que me insinua google desde la search console.
El archivo robots.txt está subido directamente a la raiz del directorio y cuando hago algún cambio en el mismo este se actualiza en el plugin Seo Yoast por lo que entiendo que no hay un problema de incompatibilidad.
Hola
Se había quedado en cache de mi navegador por eso no vi los cambios.
Igual sólo corrige la url del sitemap, puedes quedarte con el sitemap_index, poniéndolo al final en lugar de los 3 sitemaps.
Si aún así Google no te detecta posiblemente sea algún tema de cache, tendrías que esperar
Saludos.
Hola.
Al final dejé el archivo robots.txt haciendo caso a tu último mensaje :
User-Agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: https://deplatay.es/sitemap_index.xml
De todas formas cuando intento indexar un sitemap me sale el mismo mensaje :
Advertencias
El archivo robots.txt ha bloqueado la URL.
El sitemap incluye URL que el archivo robots.txt ha bloqueado.
Voy a esperar a mañana a ver si es algún problema de caché. Lo único que había hecho era marcar la casilla que está en ajustes de lectura para disuadir a los motores de búsqueda pero por supuesto a la hora de indexar la web había quitado la reestricción.
¿Hay algún archivo de la web que pueda consultar a parte de robots.txt ?
Un saludo y gracias.
Hola Antonio,
¿Puedes indicarnos que te dice el Probador de robots.txt en tu Google Seacrh Console, Rastreo, Probador de robots.txt sobre tu archivo?
Quedo pendiente de tus indicaciones.
Hola Antonio,
Si el Probador de robots.txt de Google no ve ni "errores" ni "advertencias" no entiendo entonces donde está el error.
Entiendo que has enviado el sitemap a Google y ahora debes esperar (días o semanas) a que Google vaya restreándolo.
El seguimiento del indexado lo puedes seguir en Google Search Console, Estado, Sitemaps. Si en la columna "Estado" aparece "Correcto" no veo que exista problema con dicho mapa del sitio.
Saludos
Hola Luis
Entiendo que no se indexa de manera inmediata pero lo que me parece anómalo es el siguiente mensaje de la sección sitemaps del Search console cuando indexo cualquier sitemap:
"Advertencias
El archivo robots.txt ha bloqueado la URL.
El sitemap incluye URL que el archivo robots.txt ha bloqueado."
Te dejo una captura para que le eches un vistazo. En ninguna otra web me sale este mensaje cuando hago el mismo proceso.
Gracias por tu respuesta.
Hola Antonio,
Añade los siguientes agentes porque ahora mismo los estas ignorando:
User-agent: Googlebot-Image
Allow: /wp-content/uploads/User-agent: Adsbot-Google
Allow: /User-agent: Googlebot-Mobile
Allow: /User-agent: Pingdom.com_bot
Allow: /
Después tendrás que enviar de nuevo el sitemap al Google, no se actualiza solo, para verificar que lo puede leer y rastrear.
Saludos
Buenos días
Ahora está bien configurado el archivo y los sitemaps se van indexando sin ningún mensaje de error.
La verdad es que no conocía la existencia del archivo robots.txt y veo que se pueden hacer cosas interesantes con esta herramienta. He estado ojeando un poco y veo que mediante el comando "Disallow" puedes evitar que el buscador entre en ciertas partes de tu web que no interesa indexar.
En mi caso estaría interesado en aplicar esta reestricción a las paginaciones del listado de productos, los filtros de precios y los clásicos "ordenar por : más nuevos, popularidad, etc".
La configuración de estas urls es la siguiente :
https://dominio.es/anillos/page/2/
https://dominio.es/anillos/?orderby=date
https://dominio.es/anillos/?orderby=price
https://dominio.es/anillos/?min_price=74&max_price=161
Entiendo que los comandos para integrar en el archivo robots.txt quedarían de la siguiente manera :
Disallow: /page
Disallow: /?orderby=
Disallow: /?min_price=
¿Es esto correcto o hay algún error?
¿Valdría también para una página en concreto que no me interese indexar? Por ejemplo hacerlo con la página de "contacto" con el siguiente código: Disallow: /contacto
Si quereis puedo iniciar otro post para solucionar estas dudas.
Muchas gracias por vuestra ayuda.
Hola Antonio.
listado de productos
¿ Te refieres a la paginación ?
Si utilizas yoast para el seo no hace falta que realices nada ya que el propio plugin por defecto no indexa la paginación.
-> https://yoast.com/rel-next-prev-paginated-archives/
¿Es esto correcto o hay algún error?
Correcto, con el comando Disallow: / evitas que sea indexada la categoria, pagina, etc...
¿Valdría también para una página en concreto que no me interese indexar?
pues en principio google rechaza las URL con lo que puedes añadirla ya que no te dara ningun error pero estoy casi seguro que al final llegará a indexarla.
Si que puedes utilizar por ejemplo:
disallow: /categoria/nombrepag.html
Un saludo
Muchas gracias por la información.
Un saludo