BLOG | BÜRO DES CTO

Den Umgang mit Kontextfenstern in der KI gestalten wir durch konzeptionelle Lösungen, nicht durch Magie. Das ist eine Frage der Architektur.

Lori MacVittie Miniaturbild
Lori MacVittie
Veröffentlicht am 27. August 2025

Lassen Sie uns das klären, denn zu verstehen, wo Kontext (Sitzung) in KI-Architekturen verankert ist, ist ausgesprochen wichtig. Dass ich das „verdammt“ in einem Blog verwendet habe, zeigt, wie ernst ich das meine. Ja, ich spreche wirklich aus Überzeugung.

Wenn Sie eine eigene LLM-basierte App entwickeln und dafür die OpenAI-API nutzen, sprechen Sie nicht mit ChatGPT. Sie kommunizieren mit einem Modell. Einem rohen Modell. Wenn Sie glauben, Ihre App verhält sich wie ChatGPT, nur weil sie GPT-4 nutzt, liegen Sie falsch.

ChatGPT ist keine Modellinstanz, sondern eine Laufzeitumgebung.

Viele irren sich immer wieder, weil das OpenAI-Branding nicht geholfen hat. Das „ChatGPT“-Erlebnis – die Erinnerung, der Ton, der Kontext, die Art, wie es elegant nachverfolgt, was Sie vor sechs Fragen sagten, und nicht plötzlich einen Doktortitel in Meeresbotanik erfindet – ist keine Zauberei. Es ist eine Architektur. Und diese Architektur erhält man nicht umsonst, wenn man die API nutzt.

Die ChatGPT-App bietet ein mehrschichtiges, betreutes Erlebnis. Sie verbindet:

  • Prompt-Engineering
  • Kontextmanagement
  • Nichtflüchtiger Speicher
  • Schutzvorkehrungen und Rückfalloptionen
  • Zusammenfassung, Kürzung und Steuerlogik

Mit der API erhalten Sie von Haus aus nichts davon. Absolut nichts.

Wenn Sie GPT-4 (oder ein anderes Modell) direkt ansprechen, senden Sie eine unverarbeitete Nachrichtenabfolge in einem zustandslosen Format und hoffen, dass Ihr Kontextfenster nicht überläuft oder zersplittert. Es ist ein unbeschriebenes Modell, kein digitaler Assistent.

Sie bestimmen den Kontext.

Der Inferenzserver übernimmt bei ChatGPT die Verwaltung des gesamten Kontextfensters. Du gibst ein, er behält es im Gedächtnis (bis er es nicht mehr tut) und du kannst dich darauf verlassen, dass die App größtenteils das Wesentliche im Blick behält. Darüber liegt ein Speichersystem, bei dem OpenAI sorgfältig steuert, welche Informationen zurückgeführt werden.

Nutzen Sie die API? Sie sind der Inferenzserver. Das heißt:

  • Sie gestalten den Nachrichtenstapel selbst.
  • Sie entscheiden, was Sie einbinden möchten.
  • Sie steuern Ihr Token-Budget.
  • Sie kürzen, fassen zusammen oder verlieren den Zusammenhang.

Und wenn Ihnen ein Fehler unterläuft (was am Anfang jedem von uns passiert), tragen Sie die Verantwortung, wenn das Modell während der Sitzung den Namen des Nutzers vergisst oder Daten erfindet, die Sie nie eingegeben haben.

Speicher ist keine Funktion. Er gehört zur Infrastruktur.

ChatGPT verfügt über Gedächtnis. Du nicht. Nur wenn du es nicht selbst aufbaust. Bei der Nutzung der API arbeitet es zustandslos. Du kontrollierst den gesamten Kontext, das Gedächtnis und den Ablauf. Bei der Nutzung der ChatGPT-App übernimmt OpenAI das komplett für dich. Das ist fest integriert.

Der „Speicher“ in ChatGPT ist nicht einfach eine Notiz, die an eine Eingabeaufforderung geheftet ist. Wir sprechen von einem System, das Fakten, Vorlieben, Ziele und Einschränkungen der Nutzer über Sitzungen hinweg speichert und genau zum passenden Zeitpunkt kontextbezogen in die Eingabeaufforderung einfügt. Wenn Sie so etwas in Ihre App integrieren wollen, brauchen Sie:

  • Ein Datenspeicher
  • Schema für Speichereinträge
  • Steuerungslogik zur Festlegung, wann was einbezogen wird
  • So verhindern Sie, dass Ihre Token-Anzahl unnötig steigt

Mit anderen Worten: Netzwerkinfrastruktur.

Deshalb wirken die meisten selbst entwickelten KI-Anwendungen instabil. Weil sie mit einem LLM reden, als wäre es ein Chatbot und nicht ein Werkzeug in einem System. Das Ergebnis? Abgehackte Gespräche, wiederholte Eingaben, unerwartete Rückschritte und frustrierte Nutzer.

Und warum ist das wichtig?

Wenn Sie eine API nutzen, schaffen Sie damit automatisch eine Infrastruktur – bewusst oder unbewusst. Und wenn Ihre Nutzer ein Erlebnis wie bei ChatGPT erwarten, müssen Sie genau das bieten:

  • Nichtflüchtiger Speicher
  • Intelligente Kontextkomprimierung
  • Rundengesteuertes Zustandsmanagement
  • Leitplanken, Rückfallebenen und Injektionslogik

Aber das ist erst der Anfang. Denn wenn Sie auf einem App-Delivery-Stack für Unternehmen aufbauen – und das tun Sie, oder? STIMMT? – dann muss auch der Rest der Plattform mitziehen.

Hier greifen die Teams für Anwendungsbereitstellung und Sicherheit ein.

Anwendungsbereitstellung: Sie liefern heute viel mehr als nur HTML oder JSON

KI-native Apps sind zustandsbehaftet, auf Chats ausgerichtet und oft in Echtzeit aktiv. Das heißt:

  • Sitzungsaffinität gewinnt plötzlich wieder an Bedeutung. Sie können den Gesprächsstatus nicht über zustandslose Backends verteilen, wenn Sie Sitzungstoken nicht wie 2009 verwalten.
  • Latenz bedeutet das Aus für das Nutzererlebnis. Sie übertragen mehrstufige Interaktionen, statt statische Seiten zu liefern. Ihre Load Balancer und Edge-Logik müssen wissen, wie sie latenzarme, interaktive Abläufe priorisieren.
  • Token-Kosten setzen sich aus Bandbreite, Rechenleistung und Geld zusammen. Effiziente Lieferung ist heute entscheidend. Die Größe der Nutzdaten beeinflusst nicht nur das Netzwerk, sondern auch Ihre Abrechnung.

Das ist keine Broschüren-Webseite. Hier handelt es sich um eine lebendige Schnittstelle. Sie können kein CDN einfach davor schalten und sich damit zufriedengeben.

Sicherheit: Wer die Anfrage nicht kontrolliert, trägt das Risiko

Sie können LLMs durch Eingaben programmieren. Damit wird die Eingabefläche selbst zur Angriffsfläche.

  • Injection-Angriffe sind real und passieren schon. Wenn Ihre Eingabebereinigung nachlässig ist, erlauben Sie es Nutzern, Ihre KI live umzuprogrammieren.
  • Prompt-Manipulation kann vertrauliche Speicherinhalte offenlegen, Arbeitsabläufe stören oder Absichten vortäuschen.
  • Modellausgaben exfiltrieren, manipulieren oder vergiften Angreifer, wenn Sie sie nicht durch Richtliniendurchsetzung und Beobachtbarkeit schützen.

Sicherheitskontrollen müssen sich weiterentwickeln:

  • Sie brauchen WAFs, die KI-Datenverkehr verstehen. Es reicht nicht, nur schädliches JSON zu blockieren. Sie müssen Befehlssätze absichern, nicht nur die Struktur der Nutzdaten.
  • Sie benötigen Audit-Trails für LLM-Entscheidungen, gerade in regulierten Umgebungen.
  • Sie brauchen Ratenbegrenzung und Betrugsschutz, nicht nur für API-Aufrufe, sondern auch bei sprunghaften Anstiegen bei Aufforderungskomplexität und Kosten.

Und das berücksichtigt noch nicht einmal den Datenverwaltungsalbtraum, der durch das Einfügen von Benutzeraufzeichnungen in Kontextfenster entsteht.

Erstellen Sie jetzt die passende Infrastruktur, bevor agentische KI unkontrolliert arbeitet.

ChatGPT ist im Grunde ein ausgereiftes Produkt. Die OpenAI-API dagegen ist ein unfertiges Werkzeug. Verwechseln Sie die beiden, und Ihr System wird zusammenbrechen.

Bauen Sie klug. Erstellen Sie einen App-Bereitstellungs- und Sicherheits-Stack auf Unternehmensniveau, der Ihr wachsendes KI-Portfolio gezielt unterstützt. Vertrauen Sie mir, wenn Sie KI-Agenten entwickeln und sofort agentenbasierte Architektur nutzen, wird das noch entscheidender. Wenn Sie denken, Kontext-Drift und Halluzinationen seien Probleme nur bei KI-Anwendungen für Endnutzer, warten Sie ab, wie agentenbasierte KI Ihre geschäftlichen und operativen Anwendungen beeinflussen kann.