Arquitectura de un LLM
Los LLMs modernos se basan en la arquitectura Transformer, introducida por Google en 2017 con el paper "Attention is All You Need". Los componentes clave son:
Mecanismo de atención (Self-Attention)
Permite al modelo "prestar atención" a diferentes partes del input simultáneamente, estableciendo relaciones entre palabras sin importar su distancia en el texto. Esto es lo que permite a los LLMs entender contexto y relaciones semánticas complejas.
Capas de transformers
Los modelos más grandes tienen cientos de capas. GPT-4 se estima que tiene 1.7 trillones de parámetros distribuidos en 120 capas. Más capas = mayor capacidad de razonamiento pero también mayor costo computacional.
Tokenización
El texto se divide en tokens (fragmentos de palabras o caracteres) antes de procesarse. El tokenizador de GPT-4 usa aproximadamente 100,000 tokens únicos. "Optimización" podría ser un solo token, mientras que "GEO" podría ser 2-3 tokens.
Cómo se entrenan los LLMs
Fase 1: Pre-entrenamiento
El modelo se entrena en cantidades masivas de texto (libros, sitios web, código, papers) para predecir la siguiente palabra. GPT-4 fue entrenado en aproximadamente 13 trillones de tokens. Esta fase establece el "conocimiento base" del modelo.
Fase 2: Fine-tuning supervisado
Humanos crean ejemplos de conversaciones ideales y el modelo se ajusta para seguir instrucciones de manera más natural y útil.
Fase 3: RLHF (Reinforcement Learning from Human Feedback)
Humanos evalúan y comparan respuestas del modelo. El modelo aprende qué respuestas son preferidas y ajusta su comportamiento para ser más útil, preciso y seguro.
Principales LLMs del mercado (2026)
| Modelo | Empresa | Uso principal | Crawler |
|---|---|---|---|
| GPT-4o / GPT-4 Turbo | OpenAI | ChatGPT, API | GPTBot |
| Claude 3.5 Sonnet | Anthropic | Claude.ai, API | ClaudeBot |
| Gemini Ultra/Pro | Gemini, Bard, Search | Google-Extended | |
| Llama 3 | Meta | Open source, Perplexity | N/A (open source) |
| Mistral Large | Mistral AI | Le Chat, API | N/A |
LLMs y GEO: la conexión crítica
Para que tu marca aparezca en respuestas de LLMs, debe cumplirse al menos uno de estos escenarios:
1. Estar en los datos de entrenamiento
Si tu contenido fue incluido en el corpus de entrenamiento (web scraping masivo), el LLM "conoce" tu marca. El problema: los cutoffs de entrenamiento significan que información nueva no existe para el modelo base.
2. Aparecer vía RAG (Retrieval Augmented Generation)
Cuando ChatGPT "busca en internet" o Perplexity cita fuentes, están usando RAG: recuperan información actualizada y la inyectan en el contexto del LLM. Aquí es donde el GEO tiene mayor impacto inmediato.
3. El factor de autoridad
Los LLMs tienen sesgo hacia fuentes que aparecen consistentemente en sus datos de entrenamiento como autoritativas. Wikipedia, papers académicos, y sitios .gov/.edu tienen ventaja. El Surround Sound ayuda a construir esta autoridad.
Limitaciones de los LLMs
- Alucinaciones: Pueden generar información falsa con alta confianza
- Knowledge cutoff: No conocen eventos posteriores a su entrenamiento
- Inconsistencia: Pueden dar respuestas diferentes a la misma pregunta
- Sesgo: Reflejan sesgos presentes en datos de entrenamiento
- Contexto limitado: Tienen límite de tokens por conversación (128K-200K típicamente)
El futuro de los LLMs
La tendencia es hacia modelos más eficientes (no necesariamente más grandes), mejor reasoning, y mayor integración con herramientas externas (function calling, plugins). Para GEO, esto significa:
- Mayor dependencia de RAG = más oportunidades de ser citado
- Mejor comprensión de Schema Markup y datos estructurados
- Importancia creciente de llms.txt y señales directas
El Método CITA de Agencia GEO está diseñado específicamente para optimizar contenido para cómo los LLMs procesan y citan información.