Estiamdos, para hacer simple el que los buscadores no indexen urls de un sitio, basta con indicarlo en el robots.txt verdad?
Ejemplo:
si genero un subdominio para duplicar la pagina y alli realizar todas las pruebas que deseo antes de realizarlas en la web principal, deberia agregar en el robots.txt :
disallow:/prueba.guianea.com
disallow:/guianea.com/prueba
es correcta esta presentacion para eitar que indexen el duplicado de la web que se utiliza para las pruebas?
Desde ya muchas gracias.
Saludos
URL del sitio: Contenido solo visible a usuarios registrados
Hola Jesus Perez,
En principio con habilitar esas rutas como disallow en robots.txt debería funcionarte.
El archivo robots.txt bien gestionado en una buena herramienta para limitar el acceso a ciertos bots.
Por ejemplo si a tu archivo robots.txt (que ahora lo tienes por defecto) le añades una entrada tipo:
# Robot de indexado de Google User-agent: googlebot Disallow: /images/ Disallow: /media/
Con ello estás impidiendo al bot de indexado de Google acceder a las carpetas /images y /media respectivamente.
También puedes incrementar los tiempos que permites a un bot que acceda y analice los contenidos mediante la siguiente entrada en robots.txt:
User-agent: googlebot Crawl-delay: 64800
Con ello le indicas al bot de Google que solo acceda cada 64800 segundos (1 día).
La opción "crawl-delay" no está soportada por todos los bots.
Si quieres información más detallada te recomiendo visitar el siguiente enlace:
Saludos
Muchas gracias Luis, como siempre tus respuestas rápidas, con contenido preciso y fácil de seguir cada punto.
Saludos desde Argentina
Jesús