BLOG | ESCRITÓRIO DO DIRETOR DE TECNOLOGIA

Gerenciar janelas de contexto em IA não é questão de mágica. É uma questão de arquitetura.

Miniatura de Lori MacVittie
Lori MacVittie
Publicado em 27 de agosto de 2025

Vamos esclarecer isso, porque entender onde o contexto (sessão) fica nas arquiteturas de IA é realmente muito importante. E você percebe isso porque usei a palavra “droga” em um blog. Sim, estou falando sério.

Se você está criando seu próprio aplicativo com tecnologia LLM e usando a API OpenAI para isso, você não está usando o ChatGPT. Você está interagindo com um modelo. Um modelo bruto. E se acha que seu app vai funcionar como o ChatGPT só por estar chamando o GPT-4, já está no caminho errado.

ChatGPT não é um modelo; é um ambiente de execução.

As pessoas erram o tempo todo porque a marca OpenAI não facilitou. A experiência “ChatGPT”—a memória, o tom, o contexto, a forma como acompanha com clareza o que você falou seis perguntas atrás e não cria do nada um PhD em botânica marinha—não é mágica. É arquitetura. E essa arquitetura tem custo quando você usa a API.

O app ChatGPT oferece uma experiência gerenciada em camadas. Ele integra:

  • Engenharia de prompts
  • Gerenciamento de contexto
  • Memória persistente
  • Limites e alternativas
  • Resumo, truncamento e lógica de controle

Você não recebe nada disso por padrão com a API. Absolutamente nada.

Quando você chama GPT-4 (ou qualquer outro modelo) diretamente, você envia uma sequência bruta de mensagens em formato sem estado, torcendo para que sua janela de contexto não transborde ou se fragmente no processo. Trata-se de um modelo vazio, não de um assistente digital.

A janela de contexto depende de você.

No ChatGPT, o servidor de inferência gerencia toda a janela de contexto. Você digita, ele lembra (até certo ponto), e pode contar com o app para acompanhar o que é relevante. Um sistema de memória funciona em camadas, e a OpenAI seleciona com cuidado quais informações são reaproveitadas.

Você está usando a API? Você é o servidor de inferência. Ou seja:

  • Você constrói a pilha de mensagens.
  • Você decide o que incluir.
  • Você controla o orçamento de tokens.
  • Você pode truncar, resumir ou perder a coerência.

E se você errar (e vai errar, todos nós erramos no começo), a responsabilidade será sua quando o modelo esquecer o nome do usuário no meio da sessão ou começar a criar dados que você nunca forneceu.

Memória não é um recurso. É infraestrutura.

ChatGPT tem memória. Você não tem. A menos que você crie uma. Usando a API, ela é stateless. Você é quem controla o contexto, a memória e o fluxo. No app do ChatGPT, a OpenAI gerencia tudo para você. Está incorporado.

A “memória” no ChatGPT vai além de uma simples anotação fixada no prompt. Ela consiste em um sistema que armazena fatos, preferências, objetivos e limitações do usuário ao longo das sessões, inserindo-os contextualmente no prompt no momento adequado. Para ter algo similar no seu app, você precisará:

  • Um repositório de dados
  • Esquema para registros de memória
  • Lógica de controle para definir o que incluir e quando
  • Uma forma de evitar que a contagem de seus tokens cresça demais

Em outras palavras: infraestrutura.

É por isso que a maioria dos aplicativos de IA desenvolvidos internamente acaba se mostrando instável. Eles tratam o LLM como um chatbot, não como uma ferramenta dentro de um sistema. E qual é o resultado? Perda de contexto, solicitações repetidas, falhas inexplicáveis e muita frustração para você.

E daí?

Se você está desenvolvendo usando a API, está criando infraestrutura, mesmo que não tenha planejado isso. E se seus usuários esperam uma experiência parecida com a do ChatGPT, você precisará entregar:

  • Memória persistente
  • Compressão inteligente de contexto
  • Gerenciamento de estado por etapas
  • Travas de segurança, planos de contingência e lógica de injeção

Mas isso é apenas o começo. Se você está construindo isso sobre uma pilha de entrega de aplicativos de nível empresarial — você está, não é? CERTAMENTE? — então o restante da plataforma precisa estar à altura também.

É aí que as equipes de entrega e segurança de aplicações entram em ação.

Entrega de aplicativo: Você não entrega apenas HTML ou JSON hoje em dia

Aplicativos nativos de IA são com estado, orientados por conversas e frequentemente em tempo real. Ou seja:

  • Afinidade de sessão voltou a ser importante. Você não pode distribuir o estado da conversa entre backends sem estado, a não ser que gerencie tokens de sessão como em 2009.
  • Latência mata a experiência do usuário. Você está transmitindo interações consecutivas, não apenas servindo páginas estáticas. Seus balanceadores de carga e a lógica na borda precisam priorizar fluxos de conversação com baixa latência.
  • Custo do token = largura de banda + computação + dinheiro. Entregas eficientes são essenciais agora. Tamanho da carga não é só questão de rede; impacta diretamente na sua fatura.

Este não é um site de folheto. Aqui, você interage com uma interface dinâmica. Não basta colocar uma CDN na frente e considerar resolvido.

Segurança: Se você não controla o prompt, assume o risco

Os LLMs são programáveis por meio de prompts. Ou seja, o prompt passa a ser a superfície de ataque.

  • Ataques de injeção são reais e já estão acontecendo. Se você não sanitizar bem as entradas, estará permitindo que os usuários reprogramem sua IA em tempo real.
  • A manipulação de prompts pode expor memória confidencial, atrapalhar seus fluxos de trabalho ou mascarar intenções.
  • A saída do modelo corre risco de exfiltração, manipulação ou envenenamento se você não aplicar políticas e observabilidade.

Os controles de segurança precisam evolucionar:

  • Você precisa de WAFs que compreendam o tráfego de IA. Bloquear JSON malicioso não basta. Você precisa de proteções contra conjuntos de instruções, não só contra a estrutura da carga mal-intencionada.
  • Você precisa de registros de auditoria para decisões de LLM, especialmente em ambientes regulados.
  • Você precisa de limitação de taxa e proteção contra abusos, não só para chamadas de API, mas também para picos de complexidade e custos.

E isso nem chega a tocar no pesadelo da governança de dados que ocorre ao inserir registros de usuários em janelas de contexto.

Construa a pilha certa agora, antes que a IA autônoma fuja do controle.

Basicamente, o ChatGPT é um produto lapidado. A API da OpenAI é uma ferramenta bruta. Confunda os dois e sua pilha vai travar.

Construa com sabedoria. Crie uma pilha de entrega e segurança de aplicativos de nível empresarial para dar suporte ao seu crescente portfólio de IA . Acredite em mim, isso será ainda mais importante quando você começar a criar agentes de IA e então adotar entusiasticamente a arquitetura agêntica . Porque se você acha que a deriva do contexto e as alucinações são problemas para applications de IA focados no usuário final, espere até ver o que a IA agentiva pode fazer com seus applications de IA operacionais e empresariais.