Vamos esclarecer isso, porque entender onde o contexto (sessão) fica nas arquiteturas de IA é realmente muito importante. E você percebe isso porque usei a palavra “droga” em um blog. Sim, estou falando sério.
Se você está criando seu próprio aplicativo com tecnologia LLM e usando a API OpenAI para isso, você não está usando o ChatGPT. Você está interagindo com um modelo. Um modelo bruto. E se acha que seu app vai funcionar como o ChatGPT só por estar chamando o GPT-4, já está no caminho errado.
As pessoas erram o tempo todo porque a marca OpenAI não facilitou. A experiência “ChatGPT”—a memória, o tom, o contexto, a forma como acompanha com clareza o que você falou seis perguntas atrás e não cria do nada um PhD em botânica marinha—não é mágica. É arquitetura. E essa arquitetura tem custo quando você usa a API.
O app ChatGPT oferece uma experiência gerenciada em camadas. Ele integra:
Você não recebe nada disso por padrão com a API. Absolutamente nada.
Quando você chama GPT-4 (ou qualquer outro modelo) diretamente, você envia uma sequência bruta de mensagens em formato sem estado, torcendo para que sua janela de contexto não transborde ou se fragmente no processo. Trata-se de um modelo vazio, não de um assistente digital.
No ChatGPT, o servidor de inferência gerencia toda a janela de contexto. Você digita, ele lembra (até certo ponto), e pode contar com o app para acompanhar o que é relevante. Um sistema de memória funciona em camadas, e a OpenAI seleciona com cuidado quais informações são reaproveitadas.
Você está usando a API? Você é o servidor de inferência. Ou seja:
E se você errar (e vai errar, todos nós erramos no começo), a responsabilidade será sua quando o modelo esquecer o nome do usuário no meio da sessão ou começar a criar dados que você nunca forneceu.
ChatGPT tem memória. Você não tem. A menos que você crie uma. Usando a API, ela é stateless. Você é quem controla o contexto, a memória e o fluxo. No app do ChatGPT, a OpenAI gerencia tudo para você. Está incorporado.
A “memória” no ChatGPT vai além de uma simples anotação fixada no prompt. Ela consiste em um sistema que armazena fatos, preferências, objetivos e limitações do usuário ao longo das sessões, inserindo-os contextualmente no prompt no momento adequado. Para ter algo similar no seu app, você precisará:
Em outras palavras: infraestrutura.
É por isso que a maioria dos aplicativos de IA desenvolvidos internamente acaba se mostrando instável. Eles tratam o LLM como um chatbot, não como uma ferramenta dentro de um sistema. E qual é o resultado? Perda de contexto, solicitações repetidas, falhas inexplicáveis e muita frustração para você.
Se você está desenvolvendo usando a API, está criando infraestrutura, mesmo que não tenha planejado isso. E se seus usuários esperam uma experiência parecida com a do ChatGPT, você precisará entregar:
Mas isso é apenas o começo. Se você está construindo isso sobre uma pilha de entrega de aplicativos de nível empresarial — você está, não é? CERTAMENTE? — então o restante da plataforma precisa estar à altura também.
É aí que as equipes de entrega e segurança de aplicações entram em ação.
Aplicativos nativos de IA são com estado, orientados por conversas e frequentemente em tempo real. Ou seja:
Este não é um site de folheto. Aqui, você interage com uma interface dinâmica. Não basta colocar uma CDN na frente e considerar resolvido.
Os LLMs são programáveis por meio de prompts. Ou seja, o prompt passa a ser a superfície de ataque.
Os controles de segurança precisam evolucionar:
E isso nem chega a tocar no pesadelo da governança de dados que ocorre ao inserir registros de usuários em janelas de contexto.
Basicamente, o ChatGPT é um produto lapidado. A API da OpenAI é uma ferramenta bruta. Confunda os dois e sua pilha vai travar.
Construa com sabedoria. Crie uma pilha de entrega e segurança de aplicativos de nível empresarial para dar suporte ao seu crescente portfólio de IA . Acredite em mim, isso será ainda mais importante quando você começar a criar agentes de IA e então adotar entusiasticamente a arquitetura agêntica . Porque se você acha que a deriva do contexto e as alucinações são problemas para applications de IA focados no usuário final, espere até ver o que a IA agentiva pode fazer com seus applications de IA operacionais e empresariais.