¿Por qué robots.txt importa para GEO?
El archivo robots.txt controla qué crawlers pueden acceder a tu sitio. En la era de la IA generativa, esto incluye los bots de OpenAI, Anthropic, Perplexity y Google que alimentan a ChatGPT, Claude, Perplexity y AI Overviews.
Si bloqueas estos crawlers, tu contenido es invisible para los LLMs cuando buscan información.
Los 4 Crawlers de IA que Debes Conocer
GPTBot
OpenAI / ChatGPT
Usado cuando ChatGPT activa "Browse with Bing". Sin acceso = invisible en modo búsqueda.
PerplexityBot
Perplexity AI
Siempre activo. Perplexity busca en tiempo real en cada consulta. Crítico para citaciones.
ClaudeBot
Anthropic / Claude
Incluye también "anthropic-ai". Permite que Claude acceda a tu contenido.
Google-Extended
Google AI
Controla AI Overviews y Bard. Independiente de Googlebot (no afecta SEO tradicional).
Configuración Recomendada para GEO
Esta es la configuración óptima para maximizar visibilidad en todas las plataformas de IA:
# robots.txt optimizado para GEO
# Agencia GEO - https://agenciageo.mx
# Crawlers tradicionales
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Crawlers de IA - PERMITIR TODOS
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: Claude-Web
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Bytespider
Allow: /
User-agent: CCBot
Disallow: /
# Sitemap
Sitemap: https://tudominio.com/sitemap.xml Explicación Línea por Línea
GPTBot y ChatGPT-User
GPTBot es el crawler principal de OpenAI. ChatGPT-User es usado para interacciones en tiempo real. Ambos deben estar permitidos para aparecer en ChatGPT.
PerplexityBot
PerplexityBot es especialmente importante porque Perplexity siempre busca en tiempo real y siempre cita fuentes. Es la plataforma más transparente para medir tu visibilidad en IA.
ClaudeBot y anthropic-ai
ClaudeBot y anthropic-ai son los user-agents de Anthropic. Claude-Web se usa para búsquedas web específicas.
Google-Extended
Google-Extended es independiente de Googlebot. Bloquearlo no afecta tu SEO tradicional, pero te hace invisible en AI Overviews.
CCBot - El Único que Bloqueamos
CCBot (Common Crawl) se usa para crear datasets de entrenamiento masivo. Algunos sitios lo bloquean por temas de copyright. Es opcional.
Configuraciones Alternativas
Solo Perplexity y Google (Conservadora)
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: GPTBot
Disallow: / Útil si quieres citaciones pero preocupa el uso de datos para entrenamiento.
Bloquear Todo Excepto Search (No Recomendada)
User-agent: GPTBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: / Solo si tienes razones específicas (copyright, modelo de negocio). Pierdes toda visibilidad en IA.
Cómo Verificar tu Configuración
- Accede a tu robots.txt:
https://tudominio.com/robots.txt - Busca los user-agents de IA — Si no aparecen, probablemente están permitidos por defecto
- Verifica en Google Search Console — Usa el probador de robots.txt
- Revisa logs del servidor — Busca visitas de GPTBot, PerplexityBot, etc.
Errores Comunes
Bloquea todo, incluyendo IA. Común en sitios en desarrollo que olvidan actualizar.
Técnicamente permite todo, pero pierdes control y no puedes especificar sitemap.
Disallow: /blog/ o /productos/ impide que IA vea tu mejor contenido.
Preguntas Frecuentes
¿Debo permitir GPTBot en robots.txt?
Sí, si quieres que tu contenido aparezca en ChatGPT cuando los usuarios activan el modo Browse. Bloquear GPTBot te hace invisible en las búsquedas de ChatGPT.
¿Google-Extended afecta mi SEO?
No directamente. Google-Extended solo controla el uso de tu contenido para AI Overviews y Bard, no para indexación en Search. Puedes bloquearlo sin afectar rankings, pero perderás visibilidad en IA.
¿Cómo verifico que los crawlers de IA visitan mi sitio?
Revisa los logs de tu servidor buscando los user-agents: GPTBot, PerplexityBot, ClaudeBot, anthropic-ai, y Google-Extended.
Siguiente Paso
Configurar robots.txt es solo el primer paso técnico. Para una estrategia GEO completa, también necesitas:
- Archivo llms.txt con información estructurada para LLMs
- Schema Markup completo
- Contenido optimizado para parsability
¿Necesitas ayuda con la implementación técnica?
Nuestra Auditoría GEO incluye revisión completa de robots.txt, llms.txt y configuración técnica.
Solicitar auditoría