Saltar al contenido principal

Cómo Configurar robots.txt para Crawlers de IA en 2026

La configuración de robots.txt determina si ChatGPT, Perplexity, Claude y Google AI pueden acceder a tu contenido. Esta guía te muestra exactamente cómo configurarlo para máxima visibilidad en IA generativa.

¿Por qué robots.txt importa para GEO?

El archivo robots.txt controla qué crawlers pueden acceder a tu sitio. En la era de la IA generativa, esto incluye los bots de OpenAI, Anthropic, Perplexity y Google que alimentan a ChatGPT, Claude, Perplexity y AI Overviews.

Si bloqueas estos crawlers, tu contenido es invisible para los LLMs cuando buscan información.

Importante: Muchos sitios tienen configuraciones por defecto que bloquean crawlers de IA sin saberlo. Verifica tu robots.txt ahora mismo.

Los 4 Crawlers de IA que Debes Conocer

GPTBot

OpenAI / ChatGPT

Usado cuando ChatGPT activa "Browse with Bing". Sin acceso = invisible en modo búsqueda.

PerplexityBot

Perplexity AI

Siempre activo. Perplexity busca en tiempo real en cada consulta. Crítico para citaciones.

ClaudeBot

Anthropic / Claude

Incluye también "anthropic-ai". Permite que Claude acceda a tu contenido.

Google-Extended

Google AI

Controla AI Overviews y Bard. Independiente de Googlebot (no afecta SEO tradicional).

Configuración Recomendada para GEO

Esta es la configuración óptima para maximizar visibilidad en todas las plataformas de IA:

# robots.txt optimizado para GEO
# Agencia GEO - https://agenciageo.mx

# Crawlers tradicionales
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Crawlers de IA - PERMITIR TODOS
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: Claude-Web
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Bytespider
Allow: /

User-agent: CCBot
Disallow: /

# Sitemap
Sitemap: https://tudominio.com/sitemap.xml

Explicación Línea por Línea

GPTBot y ChatGPT-User

GPTBot es el crawler principal de OpenAI. ChatGPT-User es usado para interacciones en tiempo real. Ambos deben estar permitidos para aparecer en ChatGPT.

PerplexityBot

PerplexityBot es especialmente importante porque Perplexity siempre busca en tiempo real y siempre cita fuentes. Es la plataforma más transparente para medir tu visibilidad en IA.

ClaudeBot y anthropic-ai

ClaudeBot y anthropic-ai son los user-agents de Anthropic. Claude-Web se usa para búsquedas web específicas.

Google-Extended

Google-Extended es independiente de Googlebot. Bloquearlo no afecta tu SEO tradicional, pero te hace invisible en AI Overviews.

CCBot - El Único que Bloqueamos

CCBot (Common Crawl) se usa para crear datasets de entrenamiento masivo. Algunos sitios lo bloquean por temas de copyright. Es opcional.

Configuraciones Alternativas

Solo Perplexity y Google (Conservadora)

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: GPTBot
Disallow: /

Útil si quieres citaciones pero preocupa el uso de datos para entrenamiento.

Bloquear Todo Excepto Search (No Recomendada)

User-agent: GPTBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Solo si tienes razones específicas (copyright, modelo de negocio). Pierdes toda visibilidad en IA.

Cómo Verificar tu Configuración

  1. Accede a tu robots.txt: https://tudominio.com/robots.txt
  2. Busca los user-agents de IA — Si no aparecen, probablemente están permitidos por defecto
  3. Verifica en Google Search Console — Usa el probador de robots.txt
  4. Revisa logs del servidor — Busca visitas de GPTBot, PerplexityBot, etc.

Errores Comunes

Disallow: / para todos los bots

Bloquea todo, incluyendo IA. Común en sitios en desarrollo que olvidan actualizar.

No tener robots.txt

Técnicamente permite todo, pero pierdes control y no puedes especificar sitemap.

Bloquear carpetas importantes

Disallow: /blog/ o /productos/ impide que IA vea tu mejor contenido.

Preguntas Frecuentes

¿Debo permitir GPTBot en robots.txt?

Sí, si quieres que tu contenido aparezca en ChatGPT cuando los usuarios activan el modo Browse. Bloquear GPTBot te hace invisible en las búsquedas de ChatGPT.

¿Google-Extended afecta mi SEO?

No directamente. Google-Extended solo controla el uso de tu contenido para AI Overviews y Bard, no para indexación en Search. Puedes bloquearlo sin afectar rankings, pero perderás visibilidad en IA.

¿Cómo verifico que los crawlers de IA visitan mi sitio?

Revisa los logs de tu servidor buscando los user-agents: GPTBot, PerplexityBot, ClaudeBot, anthropic-ai, y Google-Extended.

Siguiente Paso

Configurar robots.txt es solo el primer paso técnico. Para una estrategia GEO completa, también necesitas:

¿Necesitas ayuda con la implementación técnica?

Nuestra Auditoría GEO incluye revisión completa de robots.txt, llms.txt y configuración técnica.

Solicitar auditoría