Da KI- und maschinelle Lernfunktionen in Unternehmen jeder Größe zunehmend als entscheidend für die Förderung von Innovation und Effizienz angesehen werden, müssen Organisationen entscheiden, wie sie ihren Anwendungsentwicklern am besten Zugriff auf diese Funktionen ermöglichen. In vielen Fällen wird ein KI-Inferenzdienst verwendet. Dabei handelt es sich um „einen Dienst, der KI-Modelle aufruft, um auf der Grundlage einer gegebenen Eingabe eine Ausgabe zu erzeugen“ (beispielsweise eine Klassifizierung vorherzusagen oder Text zu generieren). In den meisten Fällen wird dies als Reaktion auf einen API-Aufruf von einem anderen Anwendungscode durchgeführt.
Diese Inferenzdienste können auf vielfältige Weise erstellt und genutzt werden (sogar innerhalb einer einzelnen Organisation). Diese Dienste können vollständig intern entwickelt oder als SaaS genutzt werden, Open-Source-Projekte nutzen und offene oder kommerzielle Modelle verwenden. Sie sind möglicherweise Teil einer voll funktionsfähigen „Plattform für maschinelles Lernen“, die umfassendere Datenwissenschafts- und Modellerstellungsbemühungen unterstützt, oder sie bieten Ihnen lediglich einen API-Endpunkt zum Aufrufen der Modelle. Sie können in einem privaten Rechenzentrum, in einer öffentlichen Cloud, in einer Colocation-Einrichtung oder in einer Mischung dieser Einrichtungen ausgeführt werden. Größere Organisationen verlassen sich wahrscheinlich auf mehr als eine einzige Option für KI-Inferenz (insbesondere bei niedrigeren organisatorischen Reifegraden in diesem Bereich). Zwar gibt es keinen einheitlichen Ansatz, der für alle funktioniert, doch zeichnen sich einige gemeinsame Muster ab.
Wir untersuchen drei allgemeine Nutzungsmuster für KI-Inferenzen sowie ihre verschiedenen Stärken und Schwächen:
Bei der Bewertung der Vor- und Nachteile der folgenden Betriebsmuster müssen einige wichtige Faktoren berücksichtigt werden:
Organisationen können sich dafür entscheiden, Dienste von einem dedizierten SaaS-Anbieter zu nutzen, der sich auf das Hosten von KI-Modellen für Inferenzen konzentriert (wie OpenAI oder Cohere). In diesem Fall nutzen Workloads, die auf der Infrastruktur einer Organisation (sei es ein privates Rechenzentrum, eine Colocation-Umgebung oder eine öffentliche Cloud) ausgeführt werden, vom SaaS-Anbieter veröffentlichte APIs. Bei diesem Muster liegt die Last im Zusammenhang mit dem Betrieb der zum Hosten der Modelle erforderlichen Infrastruktur vollständig beim SaaS-Anbieter, und die Einrichtung und Inbetriebnahme kann sehr schnell erfolgen. Diese Vorteile gehen jedoch auf Kosten der Kontrolle, da dieses Muster von den Mustern, die wir behandeln, das am wenigsten „flexible“ ist. Ebenso ist die Kontrolle über vertrauliche Daten bei diesem Modell typischerweise am geringsten, da für die Verbindung mit dem Dienst normalerweise das öffentliche Internet verwendet wird und der externe SaaS-Anbieter weniger in der Lage ist, strenge Anforderungen hinsichtlich der Einhaltung gesetzlicher Vorschriften zu erfüllen.
In diesem Muster nutzen Organisationen verwaltete Dienste, die von öffentlichen Cloud-Anbietern bereitgestellt werden (z. B. Azure OpenAI, Google Vertex, AWS Bedrock). Wie beim ersten Muster liegt die operative Last für die Bereitstellung, Skalierung und Wartung der KI-Modelle beim Cloud-Anbieter und nicht bei der nutzenden Organisation. Der Hauptunterschied zwischen diesem Muster und dem obigen SaaS-Muster besteht darin, dass in diesem Fall die Endpunkte der Inferenz-API im Allgemeinen über private Netzwerke zugänglich sind und KI-Consumer-Workloads mit dem KI-Modelldienst zusammengelegt werden können (z. B. dieselbe Zone, Region). Daher werden die Daten normalerweise nicht über das öffentliche Internet übertragen, die Latenz ist wahrscheinlich geringer und die Mechanismen zum Herstellen einer Verbindung mit diesen Diensten ähneln denen für andere von Cloud-Anbietern verwaltete Dienste (z. B. Dienstkonten, Zugriffsrichtlinien, Netzwerk-ACLs). Organisationen, die Multi-Cloud-Netzwerke nutzen, können möglicherweise einige dieser Vorteile auch dann erzielen, wenn Workloads und KI-Inferenzdienste in verschiedenen Clouds gehostet werden.
Für das selbstverwaltete Modell besprechen wir zunächst den Fall, in dem die KI-Modellinferenz als zentraler „gemeinsam genutzter Dienst“ ausgeführt wird. Anschließend untersuchen wir den Fall, in dem kein zentraler Dienst vorhanden ist und betriebliche Belange den einzelnen Anwendungsteams überlassen werden.
In der „Shared Service“-Variante des Self-Managed-Musters kann eine Organisation über dedizierte Teams verfügen, die für die Wartung der Inferenzinfrastruktur, der darauf ausgeführten Modelle, der zur Verbindung mit ihr verwendeten APIs und aller betrieblichen Aspekte des Inferenzdienst-Lebenszyklus verantwortlich sind. Wie bei den anderen Mustern würden die Workloads von KI-Anwendungen Inferenzdienste über API-Aufrufe nutzen. Die Modell-Serving-Infrastruktur kann in privaten Rechenzentren, einer öffentlichen Cloud oder einer Colocation-Einrichtung ausgeführt werden. Die für den Betrieb des Inferenzdienstes verantwortlichen Teams können selbstgehostete Plattformen für maschinelles Lernen (wie Anyscale Ray oder MLFlow) nutzen. Alternativ könnten sie auf stärker fokussierte Inferenztools wie den Text Generation Inference-Server von Hugging Face oder intern entwickelte Software zurückgreifen. Bei der selbstverwalteten Inferenz sind Organisationen auf die Verwendung von Modellen beschränkt, die sie entweder selbst trainiert haben oder die für die lokale Ausführung verfügbar sind (proprietäre Modelle von einem SaaS-orientierten Dienst sind daher möglicherweise keine Option).
Organisationen ohne zentrales Team, das für die Ausführung von KI-Inferenzdiensten für zu nutzende Anwendungen verantwortlich ist, stellen die andere Variante des selbstverwalteten Musters dar. In dieser Version können einzelne Anwendungsteams ihre Modelle auf derselben Infrastruktur ausführen, die ihnen für die Anwendungsarbeitslast zugewiesen wurde. Sie können auf diese Modelle entweder über die API zugreifen oder sie direkt „offline“ nutzen. Mit diesem Muster können Entwickler möglicherweise einige der gleichen Vorteile wie mit dem selbstverwalteten „Shared Service“-Modell in kleinerem Maßstab erzielen.
Im Kern ähneln KI-Anwendungen vielen anderen modernen Apps. Sie bestehen aus einer Mischung von benutzerorientierten und Backend-Komponenten, basieren häufig auf externen Datenspeichern, nutzen häufig API-Aufrufe usw. Diese Anwendungen unterliegen den gleichen Sicherheitsherausforderungen wie alle modernen Apps und benötigen die gleichen Schutzmaßnahmen in der gleichen Weise (z. B. AuthNZ, DDoS-Schutz, WAF, sichere Entwicklungspraktiken usw.). Allerdings unterliegen KI-Apps, insbesondere jene, die generative KI nutzen, auch einer Reihe besonderer Probleme, die für andere Anwendungen möglicherweise nicht gelten (siehe beispielsweise „OWASP Top 10 für LLMs “). Die im Allgemeinen unvorhersehbare Natur dieser Modelle kann zu neuartigen Problemen führen, insbesondere in Anwendungsfällen, in denen den Modellen eine erhebliche Einflussnahme zugeschrieben wird.
Glücklicherweise sind viele Organisationen aufgrund der starken Abhängigkeit von API-gesteuerten Interaktionen mit KI-Modellinferenz in den oben diskutierten Mustern bereits gut aufgestellt, um diese neuen Sicherheitsmaßnahmen zu implementieren. Beispielsweise könnte ein API-Gateway, das herkömmliche Funktionen zur Ratenbegrenzung, Authentifizierung, Autorisierung und Verkehrsverwaltung bereitstellt, erweitert werden, um tokenbasierte Ratenbegrenzungen zu unterstützen und so die Kostenkontrolle zu erleichtern (entweder ausgehend auf App-Ebene zu einem vom SaaS/Anbieter verwalteten Dienst oder eingehende RBAC-Autorisierung als Schutz vor einem selbstverwalteten Inferenzdienst). Ebenso könnte eine Infrastruktur, die derzeit herkömmliche WAF-Dienste (Web Application Firewall) ausführt, etwa die Prüfung auf SQL-Injection oder XSS, ein logischer Ort für den Einbau von Schutzmaßnahmen gegen Prompt-Injection und ähnliche Angriffe sein. Die meisten modernen Verfahren zur Observability sind direkt auf API-gesteuerte, KI-Inferenz-spezifische Anwendungsfälle anwendbar und die Teams sollten in der Lage sein, in diesem Bereich vorhandene Tools und Verfahren gut zu nutzen.
Obwohl der Hype um KI-gestützte Anwendungen und Inferenzdienste neu ist, basieren die grundlegenden Prinzipien zur Bereitstellung und Absicherung darauf bereits seit Langem. Sie werden Kompromisse abwägen müssen, um KI-Funktionen optimal zu nutzen – genauso, wie Sie es bei anderen Technologien tun; basierend auf Ihren konkreten Anwendungsfällen, verfügbaren Ressourcen und langfristigen Zielen. Auch wenn KI-Anwendungsfälle – insbesondere generative KI – neue Sicherheitsherausforderungen darstellen, schaffen die gemeinsamen Anforderungen mit anderen modernen Anwendungen und die starke Abhängigkeit von API-gesteuerten Modellinteraktionen eine hervorragende Chance, bestehende Konzepte, Methoden und Werkzeuge zu nutzen und weiterzuentwickeln. Egal ob selbst gehostet oder als Managed Service: Wir sorgen dafür, dass Entwickler Zugriff auf eine sichere, skalierbare und leistungsstarke Lösung haben, die Ihren spezifischen Geschäftsanforderungen entspricht – damit Sie den Wert und die Wirkung Ihrer KI-Investitionen voll ausschöpfen.