¿Limitación de bots...
Avisos
Vaciar todo

¿Limitación de bots de rastreo a nivel de servidor?  

 
Fernando
 Fernando
Usuario activo

Hola,

estoy viendo estadísticas de uso de recursos, y de últimos visitantes, y veo que mis dos webs alojadas aquí son rastrilladas con demasiada frecuencia por bots. El caso es son sites muy modestos, pero en algunos casos llegan a rozar el 92% de uso de CPU por culpa de los bots.

No es que me moleste que Google pasee arriba y abajo (el 95% de las visitas de tráfico orgánico son de Google), y de hecho sólo tengo autorizado en robots.txt a Google, Bing y Yahoo, pero veo otros -como Baidu, que sencillamente NO quiero que indexe mi sitio, o bots desconocidos que se están pasando el disallow general de robots.txt por el forro.

¿Hay algún método vía servidor para bloquear TODOS los bots excepto los tres mencionados?

Saludos y gracias por anticipado,
Fernando.

URL del sitio: http://www.railwayobserver.com

Citar
Respondido : 14/06/2012 7:00 pm
Luis Mendez Alejo
 Luis Mendez Alejo
Miembro Moderator

Hola Fernando,

Pienso que el archivo robots.txt bien gestionado en una buena herramienta para limitar el acceso a ciertos bots.

Por ejemplo si a tu archivo robots.txt (que ahora lo tienes por defecto) le añades una entrada tipo:

# Robot de indexado de Google
User-agent: googlebot
Disallow: /images/
Disallow: /media/

Con ello estás impidiendo al bot de indexado de Google acceder a las carpetas /images y /media respectivamente.

También puedes incrementar los tiempos que permites a un bot que acceda y analice los contenidos mediante la siguiente entrada en robots.txt:

User-agent: googlebot
Crawl-delay: 64800

Con ello le indicas al bot de Google que solo acceda cada 64800 segundos (1 día).

La opción "crawl-delay" no está soportada por todos los bots.

Si quieres información más detallada te recomiendo visitar el siguiente enlace:

- http://www.robotstxt.org/

Saludos

ResponderCitar
Respondido : 14/06/2012 10:12 pm

Cursos Gratuitos WordPress