Avisos
Vaciar todo

¿Cómo Configurar el fichero robots.txt?  

 
Maribel
 Maribel
Usuario eminente

Buenos días,

Necesito vuestro soporte técnico para configurar el fichero robots.txt, para permitir el acceso solo a los bots de Google.

A continuación os adjunto la respuesta de vuestros compañeros del servicio técnico de tickets

Y aquí van algunas dudas generadas por la respuesta de vuestros compañeros:

Las URL's /pt-pt/feed y feed: ¿Qué son? Ni yo y ni mi equipo somos consciente de haberlas generado, ni en el archivo .htacces donde hemos creado redirecciones. 

Respecto el plugin gdpr-cookie-compliance ya puse en el archivo functions.php (Child theme) un código que me pasasteis para eliminar el consumo del AJAX. Teóricamente debería haber funcionado. ¿Me podrías recomendar otro plugin para tenerlo cómo alternativa?

Muchas gracias por vuestro soporte técnico

Contenido solo visible a usuarios registrados

Citar
Respondido : 04/04/2022 10:30 am
Pepe
 Pepe
Soporte CMS Webempresa Admin

Hola Maribel.

Las URL's /pt-pt/feed y feed: ¿Qué son? 

Los Feed es un sistema que permite que el contenido pueda ser compartido, no es una pagina o una entrada que hayas creado, digamos que es como un Sitemap pero en este caso el usuario puede registrarse en una plataforma como puede ser Google feedburner e indicar contenido quiere ver de cada web.

-> https://feedburner.google.com/fb/a/myfeeds.

-> https://es.wikipedia.org/wiki/Fuente_web

Tu Feed lo puedes ver en esta URL:

-> Contenido solo visible a usuarios registrados

¿Me podrías recomendar otro plugin para tenerlo cómo alternativa?

Revisa este plugin:

https://es.wordpress.org/plugins/cookie-law-info/

 

Un saludo

ResponderCitar
Respondido : 04/04/2022 11:03 am

wpdoctor-revisa-la-salud-de-tu-wordpress

Maribel
 Maribel
Usuario eminente

Hola Pepe

 

¿Cómo puedo configurar el archivo robots.txt para que solo de acceso a los bots de Google? La web está teniendo muchas peticiones y da errores 500 continuamente. No podemos trabajar.

 

A continuación te adjunto la conversación que he tenido con vuestros compañeros del servició técnico para ponerte en contexto de la incidencia. Por lo que he veo en el correo anterior no ha aparecido el enlace del ticket.

 

Hola, buenos días.

He revisado tu cuenta y veo que en esta ocasión estabas recibiendo bastantes peticiones desde el bot del rastreador Yandex a estas URLs:

2125 /pt-pt/feed
1809 /feed

Como en la anterior gestión, he bloqueado este bot de forma que no pueda acceder.

No obstante, estas URLs de tipo feed veo que por norma general reciben bastante tráfico y es normal por otro lado que sean accesibles por rastreadores, es decir, no se trata de un ataque como tal.

Lo que sí sería recomendable es que configures el fichero robots.txt de tu sitio y permitas el acceso a esas URLs solo desde los rastreadores que realmente sí te interesen, como por ejemplo Googlebot.

Actualmente con la configuración que tienes en este momento permites el acceso a cualquier UserAgent a cualquier URL:  https://infaimon.com/robots.txt

En caso de que desconozcas cómo limitar los accesos a esas URLs, mis compañeros del centro de soporte CMS pueden ayudarte.

Veo que ya tienes acceso con tu usuario m.jaramillo@infaimon.com, por lo que puedes acceder en cualquier momento desde  https://webempresa.com/foro

Por otro lado, comentarte que a nivel de recursos tienes más que suficientes y realmente no necesitas ampliar a un plan superior.

Se trata más bien de un tema de optimización de tu sitio ya que actúa como cuello de botella, pero realizando esas limitaciones que te comentaba podrás conseguir un mejor desempeño.

Por último Maribel, veo que el plugin gdpr-cookie-compliance que tienes instalado realiza bastantes peticiones admin-ajax por minuto y sería buena idea que lo desinstalases, si necesitas un plugin de estas características puedes consultar en nuestro centro de soporte CMS, mis compañeros podrán recomendarte un plugin que esté mejor optimizado y consuma mucho menos.

Avísanos para cualquier cosa que necesites y en la que podamos ayudarte.

Un saludo!
---
Atentamente.
Salvador Gómez 

 

ResponderCitar
Respondido : 04/04/2022 11:31 am
Pepe
 Pepe
Soporte CMS Webempresa Admin

Hola Maribel.

 

En esta entrada del blog tienes un articulo paar optimizar el archivo Robots.txt:

-> https://www.webempresa.com/blog/robots-txt-en-wordpress-que-problema-tienes-googlebot.html

Al final del archivo tienes un Robots.txt optimizado, solo tienes que copiar y pegar en tu archivo robots.tx que encontradas en la raíz de tu instalación sustituyendo lo que tienes ahora por el de la entrada.

screenshot www.webempresa.com 2022.04.04 12 38 52

Del código solo tienes que sustituir la ultima linea del sitemap por la url de tu sitemap

screenshot www.webempresa.com 2022.04.04 12 41 22

La URL de tu sitemap es la siguiente:

-> Contenido solo visible a usuarios registrados

 

Un saludo

ResponderCitar
Respondido : 04/04/2022 11:46 am

Gestor de Contraseñas - VPN Conexión Segura - Gestor 2FA (Segundo Factor de Autenticación

Maribel
 Maribel
Usuario eminente

Pepe tengo una duda.

La instalación está hecha en una carpeta dentro de: public_html/infaimon.com

He modificado el original de esta manera, ¿está correcto?

En rojo: ¿No hace falta poner /infaimon.com/ delante porqué lleva un *? 

# Bloquear o permitir acceso a contenido adjunto. (Si la instalación está en /public_html).

User-agent: *
Disallow: /infaimon.com/cgi-bin
Disallow: /infaimon.com/wp-content/plugins/
Disallow: /infaimon.com/wp-content/themes/
Disallow: /infaimon.com/wp-includes/
Disallow: /infaimon.com/wp-admin/

#Impedir el acceso a los diferentes feed que genere la página

Allow: /infaimon.com/feed/$
Disallow: /infaimon.com/feed
Disallow: /infaimon.com/comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$

# Impedir URLs terminadas en /trackback/ que sirven como Trackback URL.

Disallow: /*/*/*/trackback/$

# Evita bloqueos de CSS y JS.

Allow: /*.js$
Allow: /*.css$

#Bloquear todos los pdfs

Disallow: /*.pdf$

#Bloquear parámetros

Disallow: / *?

# Lista de bots que deberías permitir.

User-agent: Googlebot-Image
Allow: /infaimon.com/wp-content/uploads/

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Mobile
Allow: /

# Lista de bots bloqueados

User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
User-agent: Baiduspider
Disallow: /
User-agent: GurujiBot
Disallow: /
User-agent: hl_ftien_spider
Disallow: /
User-agent: sogou spider
Disallow: /
User-agent: Yeti
Disallow: /
User-agent: YodaoBot
Disallow: /

#Desautorizar a páginas innecesarias

Disallow: /infaimon.com/gracias-por-suscribirte

# Añadimos una indicación de la localización del sitemap

Sitemap: https://infaimon.com/sitemap_index.xml

 

Esta publicación ha sido modificada el hace 3 años por Maribel
ResponderCitar
Respondido : 04/04/2022 12:27 pm
Karen Rios
 Karen Rios
Soporte CMS Webempresa Moderator

Hola Maribel, 

En este caso debes ubicar este archivo en la carpeta donde tienes la instalación de tu sitio web, de igual forma si usas Yoast SEO puede editar el archivo robots.txt de forma rápida desde el apartado de Yoast Seo -> Herramientas -> Editor de archivos

Screenshot   2022 04 04T073435.766
Screenshot   2022 04 04T073514.027

Un Saludo

 

ResponderCitar
Respondido : 04/04/2022 12:35 pm

optimiza-automaticamente-todas-las-imagenes-de-tu-wordpress

Maribel
 Maribel
Usuario eminente

Hola Mabel,

He quitado el código del archivo robots.text, porqué no se veía la web.

Pero ahora no puedo entrar al admin.

Da este error:

Forbidden

You don't have permission to access this resource.

 

 

Lo he dejado como estaba antes

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Esta publicación ha sido modificada el hace 3 años por Maribel
ResponderCitar
Respondido : 04/04/2022 12:41 pm
Karen Rios
 Karen Rios
Soporte CMS Webempresa Moderator

Hola Maribel, 

Que código has eliminado? puedes indicarnos en cual archivo? de esta forma podemos verifica con mayor detalle lo que nos comentas. Por ahora si ingreso a la URL que nos compartes veo que el sitio web carga aunque con algunos detalles en los estilos 

image

De igual forma ten en cuenta que en tu cuenta de hosting tienes disponible superbackup el cual te permite restaurar un sitio web a una fecha donde se visualizaba de forma correcta, puedes ver más información sobre esto en la siguiente guía -> https://guias.webempresa.com/preguntas-frecuentes/gestionar-copias-de-seguridad-con-superbackup-en-cpanel/#Restaurar-web

Un Saludo 

 

ResponderCitar
Respondido : 04/04/2022 12:47 pm

Maribel
 Maribel
Usuario eminente

He cambiado este código del archivo robots.txt:

Respondido por: @m-jaramilloinfaimon-com

# Bloquear o permitir acceso a contenido adjunto. (Si la instalación está en /public_html).

User-agent: *
Disallow: /infaimon.com/cgi-bin
Disallow: /infaimon.com/wp-content/plugins/
Disallow: /infaimon.com/wp-content/themes/
Disallow: /infaimon.com/wp-includes/
Disallow: /infaimon.com/wp-admin/

#Impedir el acceso a los diferentes feed que genere la página

Allow: /infaimon.com/feed/$
Disallow: /infaimon.com/feed
Disallow: /infaimon.com/comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$

# Impedir URLs terminadas en /trackback/ que sirven como Trackback URL.

Disallow: /*/*/*/trackback/$

# Evita bloqueos de CSS y JS.

Allow: /*.js$
Allow: /*.css$

#Bloquear todos los pdfs

Disallow: /*.pdf$

#Bloquear parámetros

Disallow: / *?

# Lista de bots que deberías permitir.

User-agent: Googlebot-Image
Allow: /infaimon.com/wp-content/uploads/

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Mobile
Allow: /

# Lista de bots bloqueados

User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
User-agent: Baiduspider
Disallow: /
User-agent: GurujiBot
Disallow: /
User-agent: hl_ftien_spider
Disallow: /
User-agent: sogou spider
Disallow: /
User-agent: Yeti
Disallow: /
User-agent: YodaoBot
Disallow: /

#Desautorizar a páginas innecesarias

Disallow: /infaimon.com/gracias-por-suscribirte

# Añadimos una indicación de la localización del sitemap

Sitemap: https://infaimon.com/sitemap_index.xml

 

Por el original

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
 

ResponderCitar
Respondido : 04/04/2022 12:52 pm
Maribel
 Maribel
Usuario eminente

Mabel, ¿me podrías ayudar con este código?

La instalación del Wordpress está en una carpeta dentro public_html: public_html/infaimon.com

¿Dónde copio el código? En el archivo robots.txt o en el Yoast


# Bloquear o permitir acceso a contenido adjunto. (Si la instalación está en /public_html). User-agent: * Disallow: /cgi-bin Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /wp-includes/ Disallow: /wp-admin/ #Impedir el acceso a los diferentes feed que genere la página Allow: /feed/$ Disallow: /feed Disallow: /comments/feed Disallow: /*/feed/$ Disallow: /*/feed/rss/$ Disallow: /*/trackback/$ Disallow: /*/*/feed/$ Disallow: /*/*/feed/rss/$ Disallow: /*/*/trackback/$ Disallow: /*/*/*/feed/$ Disallow: /*/*/*/feed/rss/$ # Impedir URLs terminadas en /trackback/ que sirven como Trackback URL. Disallow: /*/*/*/trackback/$ # Evita bloqueos de CSS y JS. Allow: /*.js$ Allow: /*.css$ #Bloquear todos los pdfs Disallow: /*.pdf$ #Bloquear parámetros Disallow: / *? # Lista de bots que deberías permitir. User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: Adsbot-Google Allow: / User-agent: Googlebot-Mobile Allow: / # Lista de bots bloqueados User-agent: MSIECrawler Disallow: / User-agent: WebCopier Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: libwww Disallow: / User-agent: Baiduspider Disallow: / User-agent: GurujiBot Disallow: / User-agent: hl_ftien_spider Disallow: / User-agent: sogou spider Disallow: / User-agent: Yeti Disallow: / User-agent: YodaoBot Disallow: / #Desautorizar a páginas innecesarias Disallow: /gracias-por-suscribirte # Añadimos una indicación de la localización del sitemap Sitemap: https://sitioweb/sitemap_index.xml
ResponderCitar
Respondido : 04/04/2022 12:58 pm

Cursos Gratuitos WordPress

Karen Rios
 Karen Rios
Soporte CMS Webempresa Moderator

Hola Maribel, 

Entiendo, le he pedido a un compañero de hosting que añadiera el archivo robots.txt en tu sitio web y ya está funcionando, puedes verlo desde el siguiente enlace -> Contenido solo visible a usuarios registrados

De igual forma veo que el sitio web ya carga de forma correcta

image

Verifica esto y nos comentas como ha ido todo

Un Saludo

ResponderCitar
Respondido : 04/04/2022 1:05 pm
Maribel
 Maribel
Usuario eminente

¡Muchas gracias Mabel!

Pero he visto el archivo robots.txt y tengo una duda. La instalación del WordPress esta dentro public_html pero está en la carpeta infaimon.com

La ruta no debería llevar /infaimon.com/

 

# Bloquear o permitir acceso a contenido adjunto. (Si la instalación está en /public_html).

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-content/plugins/

Disallow: /wp-content/themes/

Disallow: /wp-includes/ Disallow: /wp-admin/

 

Esta publicación ha sido modificada el hace 3 años por Maribel
ResponderCitar
Respondido : 04/04/2022 2:41 pm

wpdoctor-revisa-la-salud-de-tu-wordpress

Pepe
 Pepe
Soporte CMS Webempresa Admin

Hola Maribel.

El dominio .com apunta a la carpeta Contenido solo visible a usuarios registrados, cada dominio apunta a su carpeta, la carpeta public_html esta reservada para la URL temporal y para las carpetas de cada dominio, con eso puedes tener cada dominio separado en sus carpetas correspondientes y es ma facil de trabajar ya que tienes los dominios separados.

 

Si accedes a tu cuenta de cPanel Dominios podrás ver a que carpeta apunta cada dominio.

 

Un saludo

ResponderCitar
Respondido : 04/04/2022 3:01 pm