¿Qué es GPTBot?
GPTBot es el user-agent que OpenAI usa para rastrear sitios web. Su identificación es:
User-agent: GPTBot Cuando GPTBot visita tu sitio, puede estar haciendo una de dos cosas:
- Recolección de datos de entrenamiento: Contenido que podría usarse para entrenar futuros modelos
- Búsqueda en tiempo real: Cuando un usuario de ChatGPT usa la función Browse
Crawlers de IA: el ecosistema completo
GPTBot no está solo. Estos son los principales crawlers de IA que debes considerar:
| Crawler | Empresa | Plataforma |
|---|---|---|
| GPTBot | OpenAI | ChatGPT |
| ChatGPT-User | OpenAI | ChatGPT Browse (tiempo real) |
| ClaudeBot | Anthropic | Claude |
| anthropic-ai | Anthropic | Claude |
| PerplexityBot | Perplexity | Perplexity.ai |
| Google-Extended | Gemini, AI Overviews | |
| Amazonbot | Amazon | Alexa, Amazon Q |
| cohere-ai | Cohere | Cohere API |
Configuración de robots.txt para GEO
Para una estrategia GEO completa, tu robots.txt debe permitir explícitamente los crawlers de IA:
# Crawlers de IA - PERMITIDOS para GEO
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
# Crawlers tradicionales
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
Sitemap: https://tudominio.com/sitemap.xml ¿Bloquear o permitir GPTBot?
Esta es una decisión estratégica:
Razones para PERMITIR
- Quieres que ChatGPT cite tu contenido
- Quieres aparecer en resultados de Browse
- Tu modelo de negocio se beneficia de visibilidad
- Quieres influir en cómo los LLMs hablan de tu industria
Razones para BLOQUEAR
- Tu contenido es propietario o premium
- Preocupaciones sobre derechos de autor
- No quieres que se use para entrenar modelos
- Contenido sensible que no debería estar en LLMs
Para la mayoría de negocios que buscan visibilidad, permitir es la opción correcta.
Verificar acceso de GPTBot
Para confirmar que GPTBot puede acceder a tu sitio:
- Revisa tu robots.txt en tudominio.com/robots.txt
- Busca reglas de Disallow para GPTBot
- Verifica que no haya bloqueos a nivel de servidor o CDN
- Prueba páginas específicas con herramientas de fetch
GPTBot y el Método CITA
En la fase "I" (Identificación) del Método CITA, configuramos correctamente el acceso de crawlers de IA como parte de la infraestructura técnica de GEO. En Agencia GEO auditamos y optimizamos la configuración de robots.txt para maximizar la visibilidad en ChatGPT y otras plataformas.