Die aktuelle AI Pulse-Umfrage von EY zeigt, dass 87 % der Führungskräfte Hindernisse bei der Einführung sehen, von Cybersicherheits- und Datenproblemen bis zu fehlenden Richtlinien und Governance. Generative KI (GenAI) erfolgreich ins Geschäft zu integrieren, setzt sowohl den Willen als auch die Fähigkeit voraus, dies aktiv umzusetzen. Zwischen beidem stehen operative Komplexität und die Notwendigkeit, Vertrauen in diese neue Technologie zu schaffen.
Unternehmen entwickeln und setzen seit Jahrzehnten Software ein, aber GenAI stellt eine neue Herausforderung dar: Kontrolle. Anders als bei klassischer Software handeln GenAI-Anwendungen autonom und nicht deterministisch. Deshalb können Sie GenAI-Anwendungen noch nicht bedingungslos vertrauen, nur das Gewollte zu tun und Unbeabsichtigtes auszuschließen. Fehlende Kontrolle hemmt deren breite Akzeptanz. Die Herausforderung kontrollierbar zu bleiben, verstehen Sie besser, wenn Sie die Kraft des Kontexts betrachten. Dieses Verständnis hilft Ihnen, herkömmliches Softwaredesign gezielt für GenAI weiterzuentwickeln.
Mit ausreichend Kontext lässt sich die Unsicherheit von GenAI-Anwendungen steuern, weil Kontext die Kluft zwischen den Fähigkeiten der GenAI-Anwendungen und den Zielen Ihres Unternehmens überbrückt. Sie können Kontext aus drei Quellen gewinnen: der GenAI-Anwendung selbst, der Umgebung und dem Geschäftsumfeld.
Der Kontext in GenAI-Anwendungen unterscheidet sich deutlich von dem traditioneller Anwendungen. Traditionelle Anwendungen legen die zulässigen Eingaben als Parameter für vordefinierte Abläufe fest. Gleiche Eingaben führen stets zu gleichen Ergebnissen. GenAI-Anwendungen hingegen verarbeiten ein viel breiteres Spektrum an Eingaben in große Sprachmodelle (LLMs), deren Ausgaben von Natur aus nicht deterministisch sind. Gleiche Eingaben können gleiche Ergebnisse liefern, müssen es aber nicht.
Beispiel für traditionelle Anwendungsdeterminierung:
Dieses Python-Beispiel ermittelt das Alter einer Person anhand des Geburts- und des aktuellen Datums. Zur Vereinfachung verzichten wir auf Typprüfungen und die Berücksichtigung, ob der Geburtstag in diesem Jahr bereits war.
from datetime import datetime
from typing import Union
def berechne_alter(geburtsdatum:
str, aktuelles_datum:
str) -> int
alter = aktuelles_datum.jahr - geburtsdatum.jahr
Alter zurückgeben
Gegeben: Geburtsdatum = 30. Juni 1972, aktuelles Datum = 31. August 2025
Alter: 53 Jahre.
Beispiel für den Nichtdeterminismus einer GenAI-Anwendung:
Diese Anwendung ermittelt das wahrscheinliche Alter einer Person anhand allgemeinerer Informationen, ohne ihr Geburtsdatum oder das aktuelle Datum zu kennen.
Generative KI-Anwendungen verarbeiten vielfältige Eingaben für die LLM-Inferenz.
Eingabeaufforderung: Wie alt ist jemand, der Discomusik mag und sich daran erinnert, wer im Frauen-100-Meter-Lauf bei den Olympischen Spielen in Barcelona Gold gewann?
Wir haben diese präzise Aufforderung dreimal eingegeben. Die erhaltenen Antworten des LLM lauteten wie folgt:
Antwort 1: 55 Jahre
Antwort 2: 40 bis 60 Jahre alt
Antwort 3: 40er, 50er oder 60er
Die Python-Funktion in der traditionellen Anwendung nimmt zwei Eingaben (Geburtsdatum und aktuelles Datum) an und berechnet den Unterschied in Jahren. Sie kann das Alter einer Person nicht bestimmen oder Beschreibungen zu Vorlieben, Gewohnheiten und Ähnlichem verarbeiten, da sie keine Schlussfolgerungen ziehen oder kombinieren kann.
Im Gegensatz dazu kann die GenAI-Anwendung Aussagen zu populären Musikgenres aus der Kindheit und allgemeinem Wissen über bedeutende Sportereignisse aufnehmen, um eine Antwort abzuleiten. Die Antworten variieren jedoch, weil schon kleine Unterschiede in der Eingabe, etwa eine Umformulierung der Frage oder Temperatureinstellungen (die den Zufallsgrad der LLM-Antworten beeinflussen), Unterschiede bewirken. Selbst wenn der Anwendungscode zwischen den Antworten unverändert bleibt, können die Antworten unterschiedlich ausfallen. Diese Variabilität steigt mit der Komplexität der Anfrage, der Einbeziehung zusätzlicher Eingabequellen und dem Verhalten der Routing-Komponenten in der Inferenzinfrastruktur.
Angesichts dieses Spielraums können Sie sich leicht Situationen vorstellen, in denen eine GenAI-Anwendung ohne zusätzlichen Kontext stark von ihrem vorgesehenen Verhalten abweicht. Diese beiden Kontextbeispiele verdeutlichen den starken Determinismus traditioneller Software und den Nichtdeterminismus von GenAI-Anwendungen. Bei traditioneller Software erwarten Sie nicht, dass sie anhand von Kontext das Alter einer Person errät oder vorhersagt, doch GenAI-Anwendungen meistern solche nicht-deterministischen Aufgaben routinemäßig. Fehlt der Anwendung ausreichend Kontext, müssen wir uns als Nächstes die Anwendungsumgebung ansehen.
Die Umgebung umfasst die Infrastruktur und Dienste, die die Anwendung umgeben. Im Juli 1982 sagte Alan Kay auf dem Computer-Industrieseminar CreativeThink: „Wer Software wirklich ernst nimmt, sollte seine eigene Hardware herstellen“, weil er fest an die enge Verbindung zwischen beiden glaubte. Ich möchte diese Idee erweitern und die Bereitstellungsumgebung einschließen.
Anwendungen existieren nicht isoliert. Viele Infrastrukturdienste arbeiten zusammen, um Anwendungen eine Ausführungsmöglichkeit zu bieten. Diese Dienste liegen außerhalb der Anwendungen, sind aber ebenso entscheidend für deren Funktion wie Hardware. Wenn wir diesen Gedanken weiterführen, überwachen wir diese Infrastrukturdienste intensiv mit verschiedenen Observability-Lösungen, die über die Zeit umfangreiche Telemetriedaten sammeln und analysieren. Diese Daten zeigen Ihnen, wie die Anwendung arbeitet und wie die Umgebung darauf Einfluss nimmt.
Umweltkontext lässt sich in zwei Arten unterteilen: passiv und aktiv. Alle Telemetriedaten (z. B. Protokolle, Metriken, Traces und Ereignisse) zählen zu den passiven, da sie kontinuierlich erzeugt und gesammelt werden, während Infrastruktur und Anwendungen laufen. Benachrichtigungen, Warnungen und Dashboards sind aktiv. Sie nutzen Regeln, um die Telemetriedaten auszuwerten und den betrieblichen Kontext zu vermitteln. Wir stimmen diese Regeln so ab, dass die Informationen einen operativen Sinn erhalten und bewerten, wann Grenzwerte in der Umgebung erreicht oder überschritten werden.
GenAI-Anwendungen stellen den regelbasierten Ansatz infrage, da es noch keine verlässliche Telemetrie gibt, die das scheinbar unendliche Spektrum an Verhaltensweisen einer autonomen Komponente abdeckt. Das heißt jedoch nicht, dass keine Innovationen stattfinden. Wir verfolgen zwei Ansätze: Domänenbasierte Metriken zur Erfolgsmessung von GenAI und LLM als Richter. Beim ersten Ansatz ermitteln wir die Tatsachenlage auf anderem Wege und vergleichen dann das GenAI-Ergebnis, indem wir Erfolg und Fehler dokumentieren. Der zweite Ansatz bewertet die Genauigkeit eines LLM durch ein anderes LLM. Die Zukunft wird zeigen, wie weit uns diese unterschiedlichen Strategien bringen, um GenAI mit Umweltkontext wirklich zu steuern.
Geschäftsabsicht beschreibt, was das Unternehmen will – und was es nicht will. Sie berücksichtigt Situationen, die Anwendungs- und Umgebungsinformationen nicht erfassen.
Aktuelle Nachrichten berichten von einem Fall, in dem die GenAI-Komponente einer Anwendung so viel Einfluss erhielt, dass sie extrem schädliche Aktionen ausführen konnte, etwa das Löschen aller Kundendaten in einer Datenbank. Diese Daten aus dem Fall verdeutlichen die Kluft zwischen geschäftlichen Absichten und den möglichen Handlungen von GenAI-Anwendungen.
Was ist geschehen | Der fehlende geschäftliche Kontext |
---|---|
Ein KI-Codierungstool hat während eines Code-Freezes eine Produktionsdatenbank gelöscht. |
|
Das KI-Coding-Tool gab an, dass Datenbank-Rollbacks nicht unterstützt werden und keine Instanzen zum Wiederherstellen existieren, doch eine manuelle Ausführung eines Rollbacks funktioniert tatsächlich. |
|
Diese Fallstudie zeigt einige der zahlreichen möglichen Lücken auf, die entstehen, wenn GenAI anders handelt, als es ein Unternehmen beabsichtigt.
Eine Anwendung mit einer Funktion zum Löschen eines Datensatzes zu entwerfen, ist vollkommen sinnvoll, aber einer KI zu erlauben, ohne Erlaubnis alle Datensätze zu löschen, ist nicht akzeptabel. Bei herkömmlicher Software beschränken wir das Löschen von Datensätzen, um Geschäftsverluste zu vermeiden. GenAI dagegen ermöglicht eine Autonomie, die rollenbasierte Zugriffskontrollen nicht ausreichend steuern. Der Geschäftskontext unterstützt Sie, indem er erwartete von unerwarteten Verhaltensweisen abgrenzt. Das hilft, klare Anforderungen zu definieren – inklusive ausdrücklich verbotener Handlungen und verbindlicher Pausen für menschliches Eingreifen. Nur der vollständige Kontext ermöglicht ein solches Maß an Kontrolle.
Anwendungsarchitekturen, die vor der Ära von GenAI entwickelt wurden, reichen einfach nicht mehr aus. GenAI verlangt nach einem neuen Architekturmodell, das alle drei Kontextbereiche verbindet: die Anwendung, ihre Umgebung und die geschäftliche Absicht. Die Erklärung von Phil Schmid, Senior AI Relation Engineer bei Google DeepMind, hilft besonders dabei, den entscheidenden Unterschied durch GenAI-Anwendungen zu verstehen. Sie verdeutlicht, dass LLMs Kontext als Teil ihrer Eingaben erhalten und zeigt, wie verschiedene Komponenten von GenAI-Anwendungen jeweils eine eigene Definition und Nutzung von Kontext haben.
Architektur und Engineering für GenAI-Anwendungen müssen alle drei Kontextdomänen nutzen, um Ergebnisse zu liefern, die stets im Einklang mit Ihren Geschäftszielen stehen. Ohne ein vollständiges Kontextbild verlieren Sie Kontrolle, Vertrauen fehlt und die umfassende Nutzung bleibt unerreichbar.