BLOG | OFICINA DEL CTO

Gestionar las ventanas de contexto en IA no es cuestión de magia. Es arquitectura.

Miniatura de Lori MacVittie
Lori MacVittie
Publicado el 27 de agosto de 2025

Aclaremos esto, porque entender dónde se encuentra el contexto (sesión) en las arquitecturas de IA es realmente importante. Y lo sabes porque he usado la palabra "dang" en un blog. Sí, lo digo en serio.

Si creas tu propia aplicación con LLM y usas la API de OpenAI para hacerlo, no estás usando ChatGPT. Estás interactuando con un modelo. Uno en bruto. Si crees que tu app se comportará como ChatGPT solo por llamar a GPT-4, ya vas por mal camino.

ChatGPT no es un modelo; es una plataforma de ejecución.

La gente se equivoca constantemente, porque la marca OpenAI no ha sido de ayuda. La experiencia “ChatGPT”: la memoria, el tono, el contexto, la forma en que sigue con precisión lo que dijiste seis preguntas atrás sin inventar un doctorado en botánica marina, no es magia. Es arquitectura. Y esa arquitectura no es gratis al usar la API.

La aplicación ChatGPT ofrece una experiencia gestionada y estructurada en capas. Combina:

  • Ingeniería de prompts
  • Gestión de contexto
  • Memoria persistente
  • Salvaguardias y alternativas
  • Resumen, recorte y lógica de control

No obtienes nada de eso por defecto con la API. Nada.

Cuando llamas directamente a GPT-4 (o a cualquier otro modelo), le proporcionas una secuencia sin procesar de mensajes en un formato sin estado, confiando en que tu ventana de contexto no se desborde ni se fragmente en el proceso. Es un modelo vacío, no un asistente digital.

La ventana de contexto depende de ti.

En ChatGPT, el servidor de inferencia gestiona toda la ventana de contexto. Tú escribes, él recuerda (hasta que deja de hacerlo), y puedes confiar en que la aplicación mantenga un seguimiento de lo relevante. Hay un sistema de memoria superpuesto, y OpenAI selecciona discretamente qué fragmentos se vuelven a incorporar.

¿Usas la API? Eres el servidor de inferencia. Eso significa:

  • Tú construyes la pila de comunicaciones.
  • Tú decides qué incluir.
  • Gestionas el presupuesto de tokens.
  • Cortas, sintetizas o pierdes coherencia.

Y si te equivocas (como suele pasar al principio), la responsabilidad será tuya cuando el modelo olvide el nombre del usuario a mitad de la sesión o genere datos que nunca introdujiste.

La memoria no es una función. Es infraestructura.

ChatGPT tiene memoria. Tú no. A no ser que la construyas. Al usar la API, no mantiene estado. Gestionas todo el contexto, la memoria y el flujo. Al usar la app de ChatGPT, OpenAI se encarga de todo. Está integrado.

La “memoria” en ChatGPT no es solo una nota pegada a un mensaje. Se trata de un sistema que guarda datos, preferencias, objetivos y limitaciones del usuario entre sesiones, y los incorpora contextualmente al mensaje en el momento justo. Si quieres algo así en tu aplicación, necesitarás:

  • Un repositorio de datos
  • Esquema para entradas de memoria
  • Lógica para decidir cuándo incluir qué
  • Cómo evitar que sature tu cuenta de tokens

Dicho de otro modo: infraestructura.

Por eso la mayoría de las aplicaciones de IA hechas internamente resultan inestables. Porque las tratas como si un LLM fuera un chatbot, no una herramienta dentro de un sistema. ¿El resultado? Hilos perdidos, repeticiones en las peticiones, fallos extraños y frustración para ti.

¿Y qué?

Si construyes sobre la API, estás creando infraestructura, aunque no fuera tu intención. Y si tus usuarios esperan una experiencia como ChatGPT, tendrás que cumplir con sus expectativas:

  • Memoria persistente
  • Compresión inteligente de contexto
  • Gestión de estados por turnos
  • Protecciones, contingencias y lógica de inyección

Pero esto es solo el principio. Porque si construyes esto sobre una arquitectura de prestación de servicios para aplicaciones empresariales—y lo haces, ¿verdad? ¿VERDAD?—entonces el resto de la plataforma también debe estar a la altura.

Aquí es donde entran en acción los equipos de entrega y seguridad de aplicaciones.

Entrega de aplicaciones: Ya no solo ofreces HTML o JSON

Las aplicaciones nativas de IA mantienen su estado, se basan en conversaciones y suelen operar en tiempo real. Esto implica:

  • La afinidad de sesión vuelve a importar. No puedes repartir el estado de una conversación entre backends sin estado si gestionas tokens de sesión como en 2009.
  • La latencia destruye la experiencia de usuario. Transmites interacciones con múltiples pasos, no páginas estáticas. Tus balanceadores de carga y la lógica en el edge deben saber priorizar flujos conversacionales con baja latencia.
  • El coste del token es la suma de ancho de banda, cómputo y efectivo. Una entrega eficiente es crucial hoy. El tamaño del payload no solo afecta a la red; impacta directamente en la facturación.

Aquí no encontrarás un sitio informativo cualquiera. Es una interfaz dinámica y en constante evolución. No basta con añadir una CDN por delante para solucionarlo.

Seguridad: Si no controlas el aviso, asumes el riesgo

Los LLM se programan a través de indicaciones. Eso implica que la indicación es ahora la superficie de ataque.

  • Los ataques de inyección son reales y ya están ocurriendo. Si no sanitizas bien las entradas, permites que los usuarios reprogramen tu IA en tiempo real.
  • La manipulación del prompt puede filtrar datos sensibles de la memoria, interrumpir procesos o falsear la intención.
  • La salida del modelo puede ser exfiltrada, manipulada o comprometida si no la proteges con aplicación de políticas y capacidad de observación.

Los controles de seguridad deben avanzar:

  • Necesitas WAF que comprendan el tráfico basado en IA. Bloquear JSON malicioso no basta. Tienes que proteger los conjuntos de instrucciones, no solo la estructura del payload.
  • Necesita registros de auditoría para las decisiones de LLM, especialmente en entornos regulados.
  • Necesitas limitación de la tasa y protección contra abusos, no solo para las llamadas API, sino también para la complejidad del prompt y los picos de costes.

Y eso ni siquiera toca la pesadilla de gobernanza de datos que supone inyectar registros de usuarios en ventanas de contexto.

Crea la pila adecuada ya, antes de que la IA autónoma se descontrole.

En esencia, ChatGPT es un producto refinado. La API de OpenAI es una herramienta sin pulir. Confunde ambas y tu infraestructura explotará.

Construye con criterio. Desarrolla una plataforma de entrega y seguridad de aplicaciones a nivel empresarial para respaldar tu creciente cartera de IA. Confía en mí, será aún más crucial cuando empieces a crear agentes de IA y decidas apoyar plenamente la arquitectura agentiva. Si crees que la deriva del contexto y las alucinaciones son un problema solo para aplicaciones de IA orientadas al usuario final, espera a ver el impacto que puede tener la IA agentiva en tus aplicaciones operativas y comerciales.