Hola,
estoy viendo estadísticas de uso de recursos, y de últimos visitantes, y veo que mis dos webs alojadas aquí son rastrilladas con demasiada frecuencia por bots. El caso es son sites muy modestos, pero en algunos casos llegan a rozar el 92% de uso de CPU por culpa de los bots.
No es que me moleste que Google pasee arriba y abajo (el 95% de las visitas de tráfico orgánico son de Google), y de hecho sólo tengo autorizado en robots.txt a Google, Bing y Yahoo, pero veo otros -como Baidu, que sencillamente NO quiero que indexe mi sitio, o bots desconocidos que se están pasando el disallow general de robots.txt por el forro.
¿Hay algún método vía servidor para bloquear TODOS los bots excepto los tres mencionados?
Saludos y gracias por anticipado,
Fernando.
URL del sitio: http://www.railwayobserver.com
Hola Fernando,
Pienso que el archivo robots.txt bien gestionado en una buena herramienta para limitar el acceso a ciertos bots.
Por ejemplo si a tu archivo robots.txt (que ahora lo tienes por defecto) le añades una entrada tipo:
# Robot de indexado de Google User-agent: googlebot Disallow: /images/ Disallow: /media/
Con ello estás impidiendo al bot de indexado de Google acceder a las carpetas /images y /media respectivamente.
También puedes incrementar los tiempos que permites a un bot que acceda y analice los contenidos mediante la siguiente entrada en robots.txt:
User-agent: googlebot Crawl-delay: 64800
Con ello le indicas al bot de Google que solo acceda cada 64800 segundos (1 día).
La opción "crawl-delay" no está soportada por todos los bots.
Si quieres información más detallada te recomiendo visitar el siguiente enlace:
Saludos