Jonathanva
Analiza, edita y valida tu robots.txt para garantizar un correcto indexado.
Introduce el dominio o introduce directamente la url de tu archivo robots.txt
Si lo prefieres puedes pegar tu robots.txt y validar una url
Testea urls, comprueba las reglas, recibe consejos. Una vez lo tengas puedes copiar o guardarte el contenido
El archivo robots.txt es un archivo de texto simple que se coloca en el directorio raíz de un sitio web para comunicar a los robots de los motores de búsqueda (como Googlebot, Bingbot, etc.) qué páginas o secciones del sitio pueden o no rastrear e indexar.
Este archivo forma parte del Protocolo de Exclusión de Robots, un estándar usado por los sitios web para comunicarse con los rastreadores web y otros robots.
El archivo debe colocarse en el directorio raíz de tu dominio:
https://example.com/robots.txt
Es importante entender que:
¡Atención! Un error en tu robots.txt podría bloquear accidentalmente a los motores de búsqueda de rastrear páginas importantes de tu sitio, afectando negativamente tu SEO.
Especifica a qué robot de búsqueda se aplican las reglas siguientes.
Sintaxis: User-agent: [nombre del robot]
Ejemplos:
User-agent: *
→ Aplica a todos los robotsUser-agent: Googlebot
→ Aplica solo a GoogleUser-agent: Bingbot
→ Aplica solo a BingMejores prácticas:
Indica a los robots qué páginas o directorios no deben rastrear.
Sintaxis: Disallow: [ruta]
Ejemplos:
Disallow: /admin/
→ Bloquea el directorio /admin/ y todo su contenidoDisallow: /checkout
→ Bloquea la página /checkoutDisallow: /
→ Bloquea todo el sitio webDisallow:
(vacío) → Permite rastrear todoCasos de uso comunes:
Permite a los robots rastrear páginas o directorios específicos, incluso si están dentro de un directorio bloqueado por Disallow.
Sintaxis: Allow: [ruta]
Ejemplos:
Allow: /admin/public/
→ Permite rastrear la carpeta public dentro de admin (que podría estar bloqueada)Allow: /products/featured
→ Permite rastrear la página featured dentro de productsCuándo usarla:
Indica la ubicación del archivo sitemap XML.
Sintaxis: Sitemap: [URL del sitemap]
Ejemplo:
Sitemap: https://example.com/sitemap.xml
Mejores prácticas:
Especifica el tiempo mínimo (en segundos) que un robot debe esperar entre solicitudes sucesivas.
Sintaxis: Crawl-delay: [segundos]
Ejemplo:
Crawl-delay: 10
→ El robot debe esperar 10 segundos entre solicitudesNota importante: No todos los motores de búsqueda respetan esta directiva.
Especifica el dominio canónico preferido. Esta directiva es usada principalmente por Yandex.
Sintaxis: Host: [dominio]
Ejemplo:
Host: example.com
El asterisco *
se utiliza como comodín para representar cualquier secuencia de caracteres.
Ejemplos:
Disallow: /*.php
→ Bloquea todos los archivos PHPDisallow: /*?query
→ Bloquea todas las URLs que contengan "?query"Allow: /*products
→ Permite todas las URLs que terminen en "products"El símbolo $
se utiliza para indicar el final exacto de una URL.
Ejemplos:
Disallow: /product$
→ Bloquea exactamente /product, pero no /product/123Disallow: /*.pdf$
→ Bloquea todos los archivos PDF, pero no las URLs que contengan .pdf en medioLas directivas en robots.txt no distinguen entre mayúsculas y minúsculas, pero las rutas sí son sensibles a mayúsculas y minúsculas.
Ejemplos:
user-agent:
es lo mismo que User-agent:
Disallow: /admin/
NO bloquea /ADMIN/
Ejemplo de precedencia:
User-agent: Googlebot
Disallow: /folder/
Allow: /folder/subfolder/
User-agent: *
Disallow: /
En este ejemplo:
Problema:
User-agent: *
Disallow: /
Solución: Para permitir el acceso a todo el sitio, usa:
User-agent: *
Disallow:
Problema:
User - agent: Googlebot
Disallow:/admin/
Solución:
User-agent: Googlebot
Disallow: /admin/
Problema:
Disallow: admin/
Solución:
Disallow: /admin/
Problema:
Disallow: /admin/
Disallow: /admin/users/
Disallow: /admin/settings/
Solución:
Disallow: /admin/
Problema: Un robots.txt en example.com
NO afecta a blog.example.com
Solución: Crea un robots.txt separado para cada subdominio.
No, para eso debes usar meta noindex o encabezados HTTP. El robots.txt solo controla el rastreo, no la indexación.
Si no tienes un archivo robots.txt, los bots intentarán rastrear todo tu sitio. Esto no es necesariamente malo, pero podría desperdiciar cuota de rastreo en páginas innecesarias.
No, es opcional. Sin embargo, es una buena práctica tenerlo para controlar el rastreo de tu sitio.
Un robots.txt bien configurado puede mejorar tu SEO al:
No. Solo afecta a los robots que respetan el Protocolo de Exclusión de Robots, que incluye a los principales motores de búsqueda pero no necesariamente a todos los bots.