BLOG

Wie F5 NGINX Plus KI-Cluster antreibt

Liam Crilly Miniaturbild
Liam Crilly
Veröffentlicht am 03. Juli 2025

Im letzten Jahrzehnt hat sich NGINX Open Source als einer der weltweit meistgenutzten Webserver und als führende Lösung für die Application Delivery etabliert. Wir unterstützen Sie dabei, alles von kleinen Startups und akademischen Forschungsprojekten bis hin zu einigen der größten Webanwendungen der Welt durch Lastverteilung und Reverse-Proxy effektiv zu betreiben.

NGINX hat sich, genau wie zur Standardwahl für die Application Delivery, still und leise zu einem zentralen Element beim Training und der Bereitstellung von KI-Anwendungen entwickelt. Führende KI-Frameworks, Toolkits, Bibliotheken und Plattformen – wie Intel OpenVINO Model Server, NVIDIA Morpheus, Metas vLLM, NVIDIA Triton und andere – liefern native Konfigurationen für F5 NGINX Plus (und NGINX Open Source) mit, damit Sie gRPC/HTTP-Proxying, SSL/TLS-Terminierung, gesundheitsbewusste Lastverteilung und dynamische Neukonfiguration sofort nutzen können. Viele KI-Dienste und Lösungen, die auf Kubernetes-Clustern laufen, sehen im F5 NGINX Ingress Controller eine bevorzugte Wahl, um den Datenverkehr für Training und Vorhersage effizient in und aus den KI-Clustern zu steuern. Wenn Sie genauer hinschauen, erkennen Sie, dass NGINX nahezu überall dort zum Einsatz kommt, wo KI verwendet wird.

NGINX spielt in zahlreichen KI-Anwendungsfällen eine zentrale Rolle im KI-Stack. Egal, ob Sie Basis-Modelle verfeinern, Token-Ausgaben von LLMs streamen oder Anfragen zur Echtzeit-Anomalieerkennung leiten – NGINX ist meist schon im Datenpfad integriert.

Warum KI-Teams NGINX Plus wählen

  • Kubernetes-nativer Ingress: Die meisten KI-Plattformen laufen heute auf Kubernetes, und NGINX ist in Tools wie Run:ai, KServe und Ray Serve weiterhin Standard oder bevorzugter Ingress. Mit der Ausweitung von KI-Anwendungen auf hybride, Multi-Cloud- und Edge-Umgebungen bietet NGINX Gateway Fabric eine Kubernetes-native Umsetzung der Gateway-API mit geringem Ressourcenbedarf und präziser Datenverkehrskontrolle – damit haben Ihre KI-Teams mehr Kontrolle über Routing, Wiederholungen und Beobachtbarkeit, ohne die Komplexität eines Mesh-Netzwerks zu erhöhen.
  • Dynamische Rollouts in großem Umfang: KI-Inferenzarbeitslasten umfassen oft wertvolle, GPU-gebundene Sessions, die eine präzise Versionierung und unterbrechungsfreie Abläufe erfordern. NGINX ermöglicht dynamisches Neuladen der Systemkonfiguration, gewichtete Traffic-Aufteilung und aktive Gesundheitsprüfungen—so kannst du neue Modellversionen sicher einführen, ohne laufende Sessions zu stören oder GPU-Warteschlangen zu überlasten.
  • Produktionsreife API-Verarbeitung: Modellserver wie Triton, vLLM und OpenVINO setzen auf gRPC oder HTTP/2 für schnelle und strukturierte Kommunikation. NGINX bietet leistungsstarke, bewährte Unterstützung für diese Protokolle sowie Verbindungswiederverwendung, Sitzungshaftung, TLS-Terminierung und Anforderungspufferung – all das ist entscheidend, um stoßweisen oder langanhaltenden KI-Inferenzverkehr effektiv zu bewältigen.
  • Betriebskontrolle: NGINX Plus bietet erweiterte Funktionen wie RESTful-Konfigurationsaktualisierungen, Live-Management von Upstreams und eine Web Application Firewall (WAF) in Unternehmensqualität. Für Teams, die dutzende oder hunderte NGINX-Instanzen über Cluster hinweg verwalten, ergänzt F5 NGINX One die zentrale Verwaltungskonsole für Konfigurationen, Systemzustand und Sicherheitsrichtlinien – ideal für Teams, die mehrere Modelltypen oder KI-Einsatzszenarien mit unterschiedlichen Zugriffs- und Risikoprofilen unterstützen.
  • F5 AI Gateway: Speziell für AI-Workloads entwickelt, erweitert das AI Gateway NGINX mit einem sicherheitsorientierten Ansatz für AI-Datenverkehr. Wir integrieren anpassbare Schutzmechanismen gegen Prompt Injection und toxische Ausgaben sowie Rate Limiting und Nutzungskontingente, um Scraping, Flooding und unkontrollierte Anfragen in GPU-begrenzten Umgebungen zu verhindern. Sie können unterschiedliche Sicherheitsregeln auf verschiedene Inferenzwege anwenden – etwa strengere Vorgaben für generative Modelle und offenere Richtlinien für Vector-APIs. Wir können gesamten Datenverkehr auf Token- oder Anfrageebene protokollieren, um Ihre Beobachtungspipelines zu versorgen und Audit-Anforderungen zu erfüllen.

Große KI-Frameworks, Tools und Managed Services setzen auf NGINX

NGINX gehört bei vielen führenden AIOps-Stacks, Tools und Managed Services zu den bevorzugten Ingress-Lösungen.

KI-Rahmenwerk

Wie Sie NGINX einsetzen 

Konkreter Nutzen 

Intel OpenVINO Model Serve F5 und Intel demonstrieren den Einsatz von Modell-Shards hinter NGINX Plus (YouTube) Ein Gateway leitet direkt an CPU-, GPU- oder VPU-Backends weiter.
NVIDIA Triton Helm-Chart installiert Triton mit NGINX Plus Ingress für gRPC-Zugriff (GitHub) HTTP/2-Multiplexing hält die GPU-Auslastung hoch.
NVIDIA Morpheus  „So habe ich es gemacht“ Anleitung – Morpheus mit NGINX Plus Ingress sichern (F5 Community) TLS-Offload und adaptive WAF vor Echtzeit-Sicherheitsanalysen.  
NVIDIA (XLIO) Bereitstellungshandbuch für NGINX mit NVIDIA Accelerated IO (XLIO) (docs.nvidia.com) Wir verbessern TLS-Offload und Leistung, inklusive Anleitungen zum Aufbau mit OpenSSL-Unterstützung sowie Beispieldateien.  
Meta vLLM  Offizielle Dokumentation erklärt, wie Sie mehrere vLLM-Instanzen mit NGINX loadbalancieren (vLLM) Schnelles horizontales Skalieren von Endpunkten zur Textgenerierung.

MLOps-Teams setzen NGINX-Produkte ein, weil sie leichtgewichtig, modular, portabel sind und hohe Token-Volumina in vielfältigen Umgebungen bewältigen – genau wie Teams, die Microservices und APIs managen, welche für KI-Bereitstellungen unverzichtbar sind. KI-Entwickler und Machine-Learning-Ingenieure können NGINX im Rahmen ihrer standardisierten KI-Workflows nutzen, indem sie ein vom Plattform- oder MLOps-Team konfiguriertes Container-Image integrieren. NGINX arbeitet mit Hardwarebeschleunigung auf den meisten gängigen Plattformen und Prozessorarchitekturen zuverlässig zusammen.

KI-Komponenten, die NGINX als Standardoption nutzen, decken das gesamte Spektrum der KI-Infrastruktur ab — von der GPU-Planung auf niedriger Ebene über die Modellbereitstellung und Orchestrierung bis hin zur Governance auf Unternehmensebene. Sie zeigen, wie NGINX verschiedene Anwendungsfälle unterstützt: sicheren Datenverkehr zu Inferenzendpunkten weiterzuleiten, eine skalierbare und effiziente Modellbereitstellung zu ermöglichen, den Mehrmandanten-Clusterzugang zu verwalten und betriebliche Richtlinien für Versionskontrolle, Auditing sowie regulatorische Compliance durchzusetzen.

  • KServe: Die Bereitstellungshandbücher setzen eine bestehende NGINX Ingress Controller-Domain für die Anforderungsweiterleitung von Inferenzdiensten voraus.
  • Ray Serve: Die Dokumentation erklärt, wie Sie den NGINX Ingress Controller einrichten, um Dashboards und Modellendpunkte zugänglich zu machen.
  • Seldon Core v2: In den Kapiteln zur Produktionsbereitstellung erklären wir, wie Sie den NGINX Ingress Controller über Helm einrichten, auch für Canary- und Shadow-Traffic-Szenarien.
  • Run:ai: Die Voraussetzungen listen NGINX als anerkannten Ingress-Controller für Kubernetes-Cluster mit Multi-Tenant GPU-Sharing auf.
  • AWS SageMaker: In der Dokumentation finden Sie Beispiele, wie Sie NGINX und Gunicorn nutzen, um benutzerdefinierte Inferenzcontainer bereitzustellen.
  • Azure AKS: Microsoft stellt einen verwalteten NGINX Ingress Controller bereit, den Sie als integrierte, sofort einsatzfähige Lösung für den Ingress-Datenverkehr im Cluster nutzen können.
  • DataRobot: Die Installationsanleitung empfiehlt den NGINX Ingress Controller (v4.0.0+) für die pfadbasierte Anforderungsweiterleitung zu Portable Prediction Servers auf EKS.

NGINX ebnet Ihnen den Weg zu MLOps

Gemeinsam decken diese Plattformen und Tools das gesamte Spektrum der KI-Infrastruktur ab – von der GPU-Planung auf niedriger Ebene bis zum Bereitstellen von Modellen, der Orchestrierung und der Governance auf Unternehmensebene. Sie zeigen klar, wie NGINX unterschiedlichste Anwendungsfälle unterstützt: sicheren Datenverkehr zu Inferenzendpunkten leiten, skalierbare und effiziente Modellbereitstellung ermöglichen, den Multi-Tenant-Clusterzugriff steuern und Betriebsrichtlinien zu Versionskontrolle, Audits und Compliance durchsetzen. Die Liste wächst kontinuierlich, und wir freuen uns darauf, was die nächste Generation KI-basierter Unternehmen mit NGINX schafft.

Wir unterstützen Sie dabei, Ihre KI mit F5 NGINX One zu skalieren.