Buenos días,
Necesito vuestro soporte técnico para configurar el fichero robots.txt, para permitir el acceso solo a los bots de Google.
A continuación os adjunto la respuesta de vuestros compañeros del servicio técnico de tickets
Y aquí van algunas dudas generadas por la respuesta de vuestros compañeros:
Las URL's /pt-pt/feed y feed: ¿Qué son? Ni yo y ni mi equipo somos consciente de haberlas generado, ni en el archivo .htacces donde hemos creado redirecciones.
Respecto el plugin gdpr-cookie-compliance ya puse en el archivo functions.php (Child theme) un código que me pasasteis para eliminar el consumo del AJAX. Teóricamente debería haber funcionado. ¿Me podrías recomendar otro plugin para tenerlo cómo alternativa?
Muchas gracias por vuestro soporte técnico
Contenido solo visible a usuarios registrados
Hola Maribel.
Las URL's /pt-pt/feed y feed: ¿Qué son?
Los Feed es un sistema que permite que el contenido pueda ser compartido, no es una pagina o una entrada que hayas creado, digamos que es como un Sitemap pero en este caso el usuario puede registrarse en una plataforma como puede ser Google feedburner e indicar contenido quiere ver de cada web.
-> https://feedburner.google.com/fb/a/myfeeds.
-> https://es.wikipedia.org/wiki/Fuente_web
Tu Feed lo puedes ver en esta URL:
-> Contenido solo visible a usuarios registrados
¿Me podrías recomendar otro plugin para tenerlo cómo alternativa?
Revisa este plugin:
https://es.wordpress.org/plugins/cookie-law-info/
Un saludo
Hola Pepe
¿Cómo puedo configurar el archivo robots.txt para que solo de acceso a los bots de Google? La web está teniendo muchas peticiones y da errores 500 continuamente. No podemos trabajar.
A continuación te adjunto la conversación que he tenido con vuestros compañeros del servició técnico para ponerte en contexto de la incidencia. Por lo que he veo en el correo anterior no ha aparecido el enlace del ticket.
Hola, buenos días.
He revisado tu cuenta y veo que en esta ocasión estabas recibiendo bastantes peticiones desde el bot del rastreador Yandex a estas URLs:
2125 /pt-pt/feed
1809 /feed
Como en la anterior gestión, he bloqueado este bot de forma que no pueda acceder.No obstante, estas URLs de tipo feed veo que por norma general reciben bastante tráfico y es normal por otro lado que sean accesibles por rastreadores, es decir, no se trata de un ataque como tal.
Lo que sí sería recomendable es que configures el fichero robots.txt de tu sitio y permitas el acceso a esas URLs solo desde los rastreadores que realmente sí te interesen, como por ejemplo Googlebot.
Actualmente con la configuración que tienes en este momento permites el acceso a cualquier UserAgent a cualquier URL: https://infaimon.com/robots.txt
En caso de que desconozcas cómo limitar los accesos a esas URLs, mis compañeros del centro de soporte CMS pueden ayudarte.
Veo que ya tienes acceso con tu usuario m.jaramillo@infaimon.com, por lo que puedes acceder en cualquier momento desde https://webempresa.com/foro
Por otro lado, comentarte que a nivel de recursos tienes más que suficientes y realmente no necesitas ampliar a un plan superior.
Se trata más bien de un tema de optimización de tu sitio ya que actúa como cuello de botella, pero realizando esas limitaciones que te comentaba podrás conseguir un mejor desempeño.
Por último Maribel, veo que el plugin gdpr-cookie-compliance que tienes instalado realiza bastantes peticiones admin-ajax por minuto y sería buena idea que lo desinstalases, si necesitas un plugin de estas características puedes consultar en nuestro centro de soporte CMS, mis compañeros podrán recomendarte un plugin que esté mejor optimizado y consuma mucho menos.
Avísanos para cualquier cosa que necesites y en la que podamos ayudarte.
Un saludo!
---
Atentamente.
Salvador Gómez
Hola Maribel.
En esta entrada del blog tienes un articulo paar optimizar el archivo Robots.txt:
-> https://www.webempresa.com/blog/robots-txt-en-wordpress-que-problema-tienes-googlebot.html
Al final del archivo tienes un Robots.txt optimizado, solo tienes que copiar y pegar en tu archivo robots.tx que encontradas en la raíz de tu instalación sustituyendo lo que tienes ahora por el de la entrada.
Del código solo tienes que sustituir la ultima linea del sitemap por la url de tu sitemap
La URL de tu sitemap es la siguiente:
-> Contenido solo visible a usuarios registrados
Un saludo
Pepe tengo una duda.
La instalación está hecha en una carpeta dentro de: public_html/infaimon.com
He modificado el original de esta manera, ¿está correcto?
En rojo: ¿No hace falta poner /infaimon.com/ delante porqué lleva un *?
# Bloquear o permitir acceso a contenido adjunto. (Si la instalación está en /public_html).
User-agent: *
Disallow: /infaimon.com/cgi-bin
Disallow: /infaimon.com/wp-content/plugins/
Disallow: /infaimon.com/wp-content/themes/
Disallow: /infaimon.com/wp-includes/
Disallow: /infaimon.com/wp-admin/
#Impedir el acceso a los diferentes feed que genere la página
Allow: /infaimon.com/feed/$
Disallow: /infaimon.com/feed
Disallow: /infaimon.com/comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
# Impedir URLs terminadas en /trackback/ que sirven como Trackback URL.
Disallow: /*/*/*/trackback/$
# Evita bloqueos de CSS y JS.
Allow: /*.js$
Allow: /*.css$
#Bloquear todos los pdfs
Disallow: /*.pdf$
#Bloquear parámetros
Disallow: / *?
# Lista de bots que deberías permitir.
User-agent: Googlebot-Image
Allow: /infaimon.com/wp-content/uploads/
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Mobile
Allow: /
# Lista de bots bloqueados
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
User-agent: Baiduspider
Disallow: /
User-agent: GurujiBot
Disallow: /
User-agent: hl_ftien_spider
Disallow: /
User-agent: sogou spider
Disallow: /
User-agent: Yeti
Disallow: /
User-agent: YodaoBot
Disallow: /
#Desautorizar a páginas innecesarias
Disallow: /infaimon.com/gracias-por-suscribirte
# Añadimos una indicación de la localización del sitemap
Sitemap: https://infaimon.com/sitemap_index.xml
Hola Maribel,
En este caso debes ubicar este archivo en la carpeta donde tienes la instalación de tu sitio web, de igual forma si usas Yoast SEO puede editar el archivo robots.txt de forma rápida desde el apartado de Yoast Seo -> Herramientas -> Editor de archivos
Un Saludo
Hola Mabel,
He quitado el código del archivo robots.text, porqué no se veía la web.
Pero ahora no puedo entrar al admin.
Da este error:
You don't have permission to access this resource.
Lo he dejado como estaba antes
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Hola Maribel,
Que código has eliminado? puedes indicarnos en cual archivo? de esta forma podemos verifica con mayor detalle lo que nos comentas. Por ahora si ingreso a la URL que nos compartes veo que el sitio web carga aunque con algunos detalles en los estilos
De igual forma ten en cuenta que en tu cuenta de hosting tienes disponible superbackup el cual te permite restaurar un sitio web a una fecha donde se visualizaba de forma correcta, puedes ver más información sobre esto en la siguiente guía -> https://guias.webempresa.com/preguntas-frecuentes/gestionar-copias-de-seguridad-con-superbackup-en-cpanel/#Restaurar-web
Un Saludo
He cambiado este código del archivo robots.txt:
# Bloquear o permitir acceso a contenido adjunto. (Si la instalación está en /public_html).
User-agent: *
Disallow: /infaimon.com/cgi-bin
Disallow: /infaimon.com/wp-content/plugins/
Disallow: /infaimon.com/wp-content/themes/
Disallow: /infaimon.com/wp-includes/
Disallow: /infaimon.com/wp-admin/#Impedir el acceso a los diferentes feed que genere la página
Allow: /infaimon.com/feed/$
Disallow: /infaimon.com/feed
Disallow: /infaimon.com/comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$# Impedir URLs terminadas en /trackback/ que sirven como Trackback URL.
Disallow: /*/*/*/trackback/$
# Evita bloqueos de CSS y JS.
Allow: /*.js$
Allow: /*.css$#Bloquear todos los pdfs
Disallow: /*.pdf$
#Bloquear parámetros
Disallow: / *?
# Lista de bots que deberías permitir.
User-agent: Googlebot-Image
Allow: /infaimon.com/wp-content/uploads/User-agent: Adsbot-Google
Allow: /User-agent: Googlebot-Mobile
Allow: /# Lista de bots bloqueados
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
User-agent: Baiduspider
Disallow: /
User-agent: GurujiBot
Disallow: /
User-agent: hl_ftien_spider
Disallow: /
User-agent: sogou spider
Disallow: /
User-agent: Yeti
Disallow: /
User-agent: YodaoBot
Disallow: /#Desautorizar a páginas innecesarias
Disallow: /infaimon.com/gracias-por-suscribirte
# Añadimos una indicación de la localización del sitemap
Por el original
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Mabel, ¿me podrías ayudar con este código?
La instalación del Wordpress está en una carpeta dentro public_html: public_html/infaimon.com
¿Dónde copio el código? En el archivo robots.txt o en el Yoast
# Bloquear o permitir acceso a contenido adjunto. (Si la instalación está en /public_html). User-agent: * Disallow: /cgi-bin Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /wp-includes/ Disallow: /wp-admin/ #Impedir el acceso a los diferentes feed que genere la página Allow: /feed/$ Disallow: /feed Disallow: /comments/feed Disallow: /*/feed/$ Disallow: /*/feed/rss/$ Disallow: /*/trackback/$ Disallow: /*/*/feed/$ Disallow: /*/*/feed/rss/$ Disallow: /*/*/trackback/$ Disallow: /*/*/*/feed/$ Disallow: /*/*/*/feed/rss/$ # Impedir URLs terminadas en /trackback/ que sirven como Trackback URL. Disallow: /*/*/*/trackback/$ # Evita bloqueos de CSS y JS. Allow: /*.js$ Allow: /*.css$ #Bloquear todos los pdfs Disallow: /*.pdf$ #Bloquear parámetros Disallow: / *? # Lista de bots que deberías permitir. User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: Adsbot-Google Allow: / User-agent: Googlebot-Mobile Allow: / # Lista de bots bloqueados User-agent: MSIECrawler Disallow: / User-agent: WebCopier Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: libwww Disallow: / User-agent: Baiduspider Disallow: / User-agent: GurujiBot Disallow: / User-agent: hl_ftien_spider Disallow: / User-agent: sogou spider Disallow: / User-agent: Yeti Disallow: / User-agent: YodaoBot Disallow: / #Desautorizar a páginas innecesarias Disallow: /gracias-por-suscribirte # Añadimos una indicación de la localización del sitemap Sitemap: https://sitioweb/sitemap_index.xml
Hola Maribel,
Entiendo, le he pedido a un compañero de hosting que añadiera el archivo robots.txt en tu sitio web y ya está funcionando, puedes verlo desde el siguiente enlace -> Contenido solo visible a usuarios registrados
De igual forma veo que el sitio web ya carga de forma correcta
Verifica esto y nos comentas como ha ido todo
Un Saludo
¡Muchas gracias Mabel!
Pero he visto el archivo robots.txt y tengo una duda. La instalación del WordPress esta dentro public_html pero está en la carpeta infaimon.com
La ruta no debería llevar /infaimon.com/
# Bloquear o permitir acceso a contenido adjunto. (Si la instalación está en /public_html).
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/ Disallow: /wp-admin/
Hola Maribel.
El dominio .com apunta a la carpeta Contenido solo visible a usuarios registrados, cada dominio apunta a su carpeta, la carpeta public_html esta reservada para la URL temporal y para las carpetas de cada dominio, con eso puedes tener cada dominio separado en sus carpetas correspondientes y es ma facil de trabajar ya que tienes los dominios separados.
Si accedes a tu cuenta de cPanel Dominios podrás ver a que carpeta apunta cada dominio.
Un saludo