blog webempresa

¿Cómo bloquear los motores de búsqueda con el robots.txt?

por | Oct 28, 2023 | Administración del Hosting

¿Cómo enviar emails a usuarios registrados en WordPress?

En el vasto mundo digital, la visibilidad es esencial. Todos queremos que nuestro contenido sea de fácil acceso y descubierto por los usuarios. Sin embargo, hay momentos en los que necesitamos mantener ciertas partes de nuestro sitio web alejadas de los ojos curiosos de los motores de búsqueda.

Ya sea por razones de privacidad en WordPress, para proteger contenido en desarrollo o solo para mantener una estructura de sitio más limpia, el archivo robots.txt se convierte en nuestro aliado silencioso. Esta pequeña, pero poderosa herramienta nos permite comunicarnos de forma directa con los motores de búsqueda, indicándoles qué partes de nuestro sitio deben indexar y cuáles no.

En esta guía, vamos a ver cómo podemos aprovechar al máximo el archivo robots.txt para gestionar la visibilidad de nuestro sitio web en los motores de búsqueda. Si alguna vez nos hemos preguntado cómo mantener ciertas páginas fuera del radar de Google, Bing o cualquier otro motor de búsqueda, estamos en el lugar correcto. ¡Acompáñame en este viaje y descubre el poder del robots.txt!

¿Qué es el robots.txt?

 

El archivo robots.txt es uno de esos elementos esenciales del mundo web que, aunque pasa desapercibido para muchos, juega un papel crucial en la relación entre nuestro sitio y los motores de búsqueda. Imaginemos que nuestro sitio web es una gran biblioteca de WordPress y los motores de búsqueda son visitantes ansiosos por leer todos los libros disponibles. Sin embargo, hay ciertas secciones o estanterías que preferimos mantener privadas o restringidas. Aquí es donde entra en juego el robots.txt.

Este pequeño archivo actúa como un portero o un guardia de seguridad, indicando a los “visitantes” (motores de búsqueda) qué partes de la “biblioteca” (nuestro sitio web) pueden explorar y cuáles no. Se encuentra en la raíz de nuestro dominio y proporciona instrucciones específicas sobre qué rutas o URLs deben ser ignoradas por los rastreadores web.

Pero, ¿por qué es tan importante? Bueno, hay múltiples razones. Tal vez tengamos contenido en desarrollo que aún no esté listo para ser público, o quizás existan páginas sensibles que no deseemos que sean indexadas. El archivo robots.txt nos da el control sobre estas decisiones, asegurando que solo el contenido que deseamos compartir sea visible para el mundo exterior.

ejemplo de robots

El robots.txt es la herramienta de comunicación directa con los motores de búsqueda, permitiendo gestionar la visibilidad del contenido en la web de manera efectiva y sencilla. Es una pieza esencial en el rompecabezas del SEO de WordPress y la gestión de sitios web.

¿Cuándo bloquear un motor de búsqueda?

 

Aunque pueda parecer contradictorio, hay momentos en los que es recomendable bloquear a los motores de búsqueda de acceder a ciertas partes de nuestro sitio web. Si bien el objetivo principal de cualquier página web en WordPress es ser visible y alcanzar al mayor número de usuarios posible, existen situaciones específicas en las que restringir el acceso puede ser beneficioso. Veamos algunas de estas circunstancias:

Contenido en desarrollo: si estamos trabajando en una nueva sección de nuestro sitio o en una actualización importante, es probable que no queramos que esta información inacabada o en pruebas sea indexada. Bloquear de forma temporal a los motores de búsqueda evitará que los usuarios encuentren contenido que aún no está listo para ser presentado.

Páginas sensibles: puede que tengamos páginas con información confidencial o privada que, aunque estén en nuestro sitio, no deberían ser accesibles para el público general. Un ejemplo común podría ser una página de agradecimientos tras una compra o una descarga en WordPress exclusiva.

Optimización de recursos: los rastreadores de los motores de búsqueda consumen recursos al visitar nuestro sitio. Si tenemos páginas que no aportan valor en términos de SEO, como archivos de imágenes o scripts, podemos bloquear su acceso para ahorrar ancho de banda y mejorar la velocidad del sitio WordPress.

Evitar contenido duplicado: en ocasiones, el contenido puede estar repetido en diferentes partes de nuestro sitio, lo que puede llevar a penalizaciones por parte de los motores de búsqueda. Bloquear el acceso a estas páginas duplicadas puede ser una solución efectiva.

Pruebas y experimentos: si estamos realizando pruebas A/B o experimentando con diferentes diseños y contenidos, es posible que no queramos que estos se indexen hasta estar seguro de cuál será la versión final.

safe

Es esencial entender que bloquear a los motores de búsqueda es una herramienta poderosa, pero debe usarse con precaución. Un uso incorrecto puede llevar a que partes esenciales de nuestro sitio no se indexen, afectando la visibilidad y posicionamiento.

¿Cómo bloquear un motor de búsqueda con el robots.txt?

 

El archivo robots.txt es una herramienta esencial cuando se trata de dictar cómo los motores de búsqueda interactúan con nuestro sitio web. Aunque su estructura es simple, su impacto puede ser significativo. Veamos cómo podemos utilizar este archivo para bloquear a los motores de búsqueda y asegurarnos de que nuestro contenido se muestre (o no) como lo deseamos.

Ubicación del archivo: primero, es fundamental saber que el archivo robots.txt debe estar ubicado en nuestro directorio raíz del sitio. Por ejemplo, si nuestro sitio es ejemplo.com, el archivo debería ser accesible en ejemplo.com/robots.txt.

diferentes robots

Si por alguna razón no encontramos este archivo aquí, podemos crearlo de forma manual, solo tenemos que ingresar en nuestro wepanel o cPanel e ingresar a nuestra instalación, en la mayoría de los casos sería:

Administrador de archivos > Public_html > dominio > archivo robots.txt

Luego hacer clic en el botón derecho del mouse y crear nuevo archivo de texto, al final podemos dejarlo en blanco de forma temporal y llamarlo robots.txt.

Si no existe el robot

Estructura básica: El archivo se compone de “User-agents” (los rastreadores de motores de búsqueda) y directivas como “Disallow” o “Allow“. En este caso, vamos a indicar que no queremos que el rastreador de Google (Googlebot) acceda al directorio /privado/ por lo que el código que tendríamos que agregar sería el siguiente.

User-agent: Googlebot
Disallow: /privado/

También es posible bloquear el acceso de los robots a todas las áreas de nuestra web, para esto debemos utilizar el indicativo de comodín (*) este hará que todos y cada unos de los bots en el mercado sean tomados en cuenta para nuestra siguiente instrucción. En este caso será la de bloquear todo nuestro sitio.

User-agent: *
Disallow: /

De manera general podemos tener una lista con todos los motores de búsquedas conocidos actualmente con su código para el archivo robots.txt, de esta forma si buscamos que alguno de estos no tenga acceso a partes de nuestra web, o en definitiva prohibirles el acceso por completo, tendremos una opción para ello.

Search engine Field User-agent
Baidu General baiduspider
Baidu Images baiduspider-image
Baidu Mobile baiduspider-mobile
Baidu News baiduspider-news
Baidu Video baiduspider-video
Bing General bingbot
Bing General msnbot
Bing Images & Video msnbot-media
Bing Ads adidxbot
Google General Googlebot
Google Images Googlebot-Image
Google Mobile Googlebot-Mobile
Google News Googlebot-News
Google Video Googlebot-Video
Google Ecommerce Storebot-Google
Google AdSense Mediapartners-Google
Google AdWords AdsBot-Google
Yahoo! General slurp
Yandex General yandex

Permitir el acceso a ciertas áreas: aunque el propósito principal aquí es bloquear, también podemos especificar qué áreas queremos que los motores de búsqueda rastreen usando “Allow” en conjunto con la instrucción “Disallow“.

User-agent: Googlebot
Allow: /publico/
Disallow: /privado/

Verificar y probar: antes de finalizar, es crucial que verifiquemos el archivo robots.txt para asegurarnos de que no estamos bloqueando contenido esencial. Herramientas como la de Google Search Console pueden ayudarnos a comprobar y simular cómo los rastreadores ven nuestro archivo.

Actualizaciones y mantenimiento: el mundo digital está en constante cambio. Por ello, es recomendable revisar y actualizar con regularidad nuestro archivo robots.txt para asegurar de que sigue siendo relevante y efectivo.

Obtimizaciones: una vez y como paso opcional tenemos la optimización del archivo robots.txt, esta es una base fundamental para todos los sitio y más allá de solo bloquear los motores de búsqueda lo que necesitamos sería optimizar las rutas para los mismos, para lograr esto podemos ver nuestra guía de crear y optimizar Robots.txt en WordPress

Plugins útiles para gestionar robots.txt

 

En lo que respecta al ecosistema de WordPress, existen herramientas que facilitan la gestión de aspectos técnicos sin necesidad de sumergirse en el código. El archivo robots.txt no es la excepción. Aunque es por completo posible gestionar este archivo de forma manual, hay plugins que pueden hacer esta tarea más sencilla y eficiente. Veamos algunos de los más destacados.

Plugin Yoast SEO

 

El mundo del SEO es vasto y en constante evolución. Sin embargo, hay herramientas que se han consolidado como esenciales para cualquier profesional o entusiasta del SEO en WordPress. Una de esas herramientas es el plugin Yoast SEO. Pero, ¿qué hace que este plugin sea tan especial y cómo puede ayudarnos a gestionar el archivo robots.txt?

yoast plugin

Integración sin problemas: si estamos utilizando Elementor para construir nuestro sitio web, Yoast SEO se integra con este constructor. Esto significa que podemos aprovechar todas las ventajas de Yoast SEO dentro de nuestro entorno de diseño favorito.

Gestión avanzada del robots.txt: aunque el archivo robots.txt es esencial para indicar a los motores de búsqueda qué páginas deben rastrear y cuáles no, gestionarlo puede ser un desafío. Con Yoast SEO, podemos tener un control más preciso sobre este archivo.

Optimización automática: además de ayudarnos con el archivo robots.txt, Yoast SEO se encarga de muchos otros aspectos técnicos del SEO, como las URL canónicas y las metaetiquetas. Esto nos permite centrarnos en lo que mejor sabemos hacer: crear contenido increíble.

Análisis de contenido: una de las características más apreciadas de Yoast SEO es su capacidad para analizar el contenido y ofrecer recomendaciones prácticas para mejorarlo. Esto es útil cuando estamos diseñando páginas con y queremos asegurarnos de que cada elemento esté optimizado para los motores de búsqueda.

Plugin WP Robots Txt

 

Algunas veces no buscamos un plugin que nos haga todo o que tenga elementos adicionales como es el caso de yoast seo, en algunas ocasiones solo queremos modificar el archivo robots.txt y hacerlo de forma sencilla y rápida.

Este es el caso del plugin WP Robots Txt, en él podemos hacer ajustes básicos en nuestro archivo mediante el dashboard de WordPress, en nuestro ajuste > lectura.

wp robots

Plugin All in One SEO

 

Si nuestro sitio web no es visible para los motores de búsqueda, estamos perdiendo una gran oportunidad de atraer tráfico relevante. Aquí es donde entra en juego All in One SEO Pack (AIOSEO), un plugin de WordPress que ha sido la elección de muchos usuarios para gestionar y bloquear los motores de búsqueda con el robots.txt en WordPress.

all in one seo plugin

Conclusiones

 

En la era digital, la visibilidad es esencial. Sin embargo, hay momentos en los que necesitamos tomar el control y decidir qué partes de nuestro sitio web queremos que sean accesibles para los motores de búsqueda. El archivo robots.txt emerge como una herramienta poderosa en este contexto, permitiéndonos guiar a los motores de búsqueda sobre qué contenido pueden y no pueden indexar.

Aunque puede parecer un detalle técnico menor, gestionar de forma adecuada este archivo puede tener un impacto significativo en la forma en que nuestro sitio es percibido y clasificado en los resultados de búsqueda. Además, con la ayuda de plugins como All in One SEO Pack y otros, la tarea de optimizar y gestionar el robots.txt se vuelve más sencilla y eficiente.

Entender y utilizar de forma adecuada el robots.txt es esencial para cualquier propietario de sitio web que busque tener un control total sobre su presencia en línea. ¡No subestimes su poder y aprovecha al máximo esta herramienta!

¿Te ha resultado útil este artículo?

Promo hosting noviembre