Stellen Sie sich eine Welt vor, in der KI-Inferenzaufgaben nicht nur schneller, sondern auch sicherer ausgeführt werden und der Einrichtungs- und Wartungsaufwand minimal ist. Klingt zu schön, um wahr zu sein? Die neueste auf Intel OpenVINO basierende Lösung macht dies durch die Integration von Intels E2100 „Dayton Peak“ Infrastructure Processing Unit (IPU), F5 NGINX Plus und Red Hat OpenShift möglich. Es handelt sich um eine bahnbrechende Konfiguration für Entwickler und Unternehmen, die KI-Workloads sicher und effizient skalieren und gleichzeitig Installation und Betrieb optimieren möchten.
Ich möchte Ihnen im Detail erklären, wie alle Teile dieses Puzzles zusammenpassen und warum diese Integration die Sicherheit und Skalierbarkeit von KI-Inferenzen grundlegend verändert.
Im Kern ist dieses Setup darauf ausgelegt, die KI-Inferenz zu beschleunigen, indem kritische Infrastrukturaufgaben auf die Intel IPU ausgelagert werden. Dadurch kann das Hostsystem, auf dem der Intel OpenVINO-Inferenzserver läuft, seine Ressourcen auf das Wesentliche konzentrieren: die Bereitstellung schneller und genauer Inferenzergebnisse. In Kombination mit F5 NGINX Plus und Red Hats Enterprise Linux-Betriebssystemen OpenShift und MicroShift erreicht das System eine einzigartige Balance aus Leistung, Skalierbarkeit und Sicherheit.
Hier ist der Kern-Workflow: Verschlüsselter Datenverkehr fließt vom KI-Client zu NGINX Plus, das direkt auf der Intel IPU bereitgestellt wird. NGINX Plus fungiert als Verkehrsproxy, entschlüsselt Daten und leitet sie sicher über den PCIe-Bus an die Intel OpenVINO-Inferenzserver weiter, die auf dem Dell R760-System gehostet werden. Die Ergebnisse werden dann über NGINX Plus zur Übermittlung an den KI-Client zurückgesendet.
Während der Workflow selbst überzeugend ist, bieten die architektonischen Vorteile einen noch größeren Mehrwert. Durch die Verlagerung von Infrastrukturaufgaben auf die IPU bietet die Lösung sowohl Leistungsvorteile als auch eine klare Aufgabenteilung für Administratoren.
Ein entscheidender Vorteil der Bereitstellung von NGINX Plus auf der Intel IPU ist die Entlastung der CPU des Hostsystems von Infrastrukturaufgaben. Dinge wie Verkehrsrouting, Entschlüsselung und Zugriffskontrolle – die ressourcenintensiv sein können – werden vollständig auf der IPU abgewickelt. Dies bedeutet, dass der Host-CPU deutlich mehr Zyklen zur Verfügung stehen, um sich auf anwendungsspezifische Workloads zu konzentrieren, wie etwa das Ausführen zusätzlicher Intel OpenVINO-Inferenzmodelle oder die Verarbeitung ressourcenintensiver KI-Prozesse.
In der Praxis bedeutet dies eine bessere Auslastung Ihrer teuren Hochleistungsserverhardware. Anstatt durch Infrastrukturaufgaben im Hintergrund belastet zu werden, kann die Host-CPU mit voller Kapazität für die Workloads arbeiten, die Ihnen am wichtigsten sind.
Ein weiterer einzigartiger Vorteil der Lösung ist die Trennung von Infrastrukturdiensten und Application -Workloads. Indem wir alle Infrastrukturaufgaben – wie NGINX Plus, Netzwerkverwaltung und Zugriffskontrolle – auf der Intel IPU ausführen und gleichzeitig den Intel OpenVINO-Inferenzserver auf dem Host belassen, haben wir eine klare Trennung zwischen den Verantwortlichkeiten der Steuerebene geschaffen.
Der Intel OpenVINO- Application ist für die Verwaltung von Inferenz-Workloads, die Bereitstellung und Skalierung von KI-Modellen und die Optimierung der Leistung auf Anwendungsebene verantwortlich. Während der Infrastrukturadministrator die Intel IPU-Umgebung überwacht, das Routing verwaltet, die Zugriffskontrolle (über FXP-Regeln) durchsetzt und durch die Konfiguration der NGINX Plus-Instanz sicherstellt, dass die Infrastrukturdienste sicher und effizient funktionieren.
Diese Aufgabentrennung beseitigt Unklarheiten, stärkt die organisatorische Zusammenarbeit und stellt sicher, dass sich jeder Administrator voll und ganz auf sein jeweiliges Fachgebiet konzentrieren kann.
Zusammen machen diese Vorteile diese Lösung nicht nur praktisch, sondern auch effizient für die Skalierung von KI-Workflows in Unternehmen, während gleichzeitig die Ressourcennutzung und Sicherheit erstklassig bleiben.
Einer der herausragenden Aspekte dieses Systems ist die Art und Weise, wie es Red Hat MicroShift und OpenShift DPU Operators nutzt, um die Konfiguration und Skalierung praktisch mühelos zu gestalten. Ehrlich gesagt fühlt sich diese Art der Automatisierung wie Magie an, wenn man sie in Aktion sieht. Lassen Sie es mich aufschlüsseln:
Es gibt zwei Cluster. Es gibt den OpenShift-Cluster, der auf dem Hostsystem läuft. Genauer gesagt handelt es sich hierbei um einen OpenShift-Workerknoten, der auf dem Dell R760 ausgeführt wird. Der zweite Cluster ist ein MicroShift-Cluster. Es wird auf den Arm-Kernen der Intel IPU eingesetzt. Diese leichtgewichtige Version von OpenShift bietet die Flexibilität von Containern ohne den Overhead einer vollständigen Kubernetes-Umgebung.
Diese Cluster arbeiten über DPU-Operatoren zusammen, die die schwere Arbeit hinter den Kulissen erledigen. Sie kommunizieren miteinander und tauschen Daten über aktive Pods und Netzwerke aus. Diese Verbindung ist besonders wichtig für die dynamische Verwaltung von Sicherheits- und Verkehrsregeln.
Und hier ist der Teil, der Entwicklern das Leben wirklich erleichtert: die dynamische Regelerstellung. Bisher erforderte das Einrichten von FXP-Regeln (zur Verwaltung der Zugriffskontrolle für PCIe-Verkehr) manuellen Aufwand und Kenntnisse der P4-Programmierung. Jetzt müssen Sie nur noch Ihre Workloads bereitstellen und die Operatoren erledigen alles automatisch:
Der Operator erstellt dynamisch neue FXP-Regeln, wenn entsprechend markierte OpenVINO-Inferenz-Pods bereitgestellt werden. Diese FXP-Regeln ermöglichen die Kommunikation über den PCIe-Bus. Wenn die Arbeitslast steigt oder sinkt, passt das System diese Zugriffsregeln automatisch an, sodass bei der Konfiguration keine Rätselraten mehr nötig sind.
Dieser Automatisierungsgrad bedeutet, dass sich jeder – vom Entwickler bis zum Systemadministrator – auf KI-Workloads konzentrieren kann, ohne sich im Kleinkram der Infrastrukturkonfiguration verlieren zu müssen.
Kommen wir nun zum Kern der Sache und sehen uns an, wie dieses gesamte System für KI-Inferenzen funktioniert. Nehmen wir das Beispiel der Erkennung von Tierarten in Bildern mithilfe des Intel OpenVINO Deep Learning Deployment Toolkits. So sieht der Workflow Schritt für Schritt aus
Zunächst werden verschlüsselte Bilddaten von einem KI-Client über einen GRPCS-API-Aufruf gesendet. NGINX Plus, das auf der Intel IPU läuft, entschlüsselt die Daten und fungiert als Verkehrsproxy. Dieser Datenverkehr fließt dann sicher über den PCIe-Bus zu den Intel OpenVINO-Inferenzservern, die auf dem Dell R760 gehostet werden. Die Intel OpenVINO-Inferenzserver verarbeiten die Bilder mithilfe des ResNet-KI-Modells, um die Art in jedem Bild zu bestimmen. Beispielsweise könnte daraus gefolgert werden: „Das ist ein Golden Retriever“ oder „Das ist eine getigerte Katze.“ Die Ergebnisse werden über denselben Weg zurückgesendet – über NGINX Plus und weiter an den Client.
Das System kann so eingerichtet werden, dass es mehrere KI-Clients gleichzeitig bei der Verarbeitung von Bildstapeln unterstützt. Selbst wenn mehrere Clients Inferenzanforderungen in einer Schleife ausführen, bleibt das System sicher, nahtlos und reaktionsfähig.
Lassen Sie uns über einen der Hauptvorteile dieses Systems sprechen: Sicherheit. Die Intel IPU verarbeitet nicht nur den Datenverkehr – sie schützt aktiv die Kommunikation zwischen der Infrastruktur und den auf dem Host ausgeführten Inferenz-Workloads.
So funktioniert es: Die IPU verwendet FXP-Regeln, um den Datenverkehr über die PCIe-Schnittstelle zu steuern. Nur der durch diese dynamisch generierten Regeln (verwaltet von den DPU-Betreibern) autorisierte Datenverkehr darf fließen. Dadurch wird eine sichere Kommunikation gewährleistet und gleichzeitig der unberechtigter Zugriff auf das Hostsystem blockiert. Diese Art mehrschichtiger Sicherheit trägt dazu bei, Risiken zu mindern, insbesondere für Unternehmen, die sensible Daten über KI-Pipelines verarbeiten.
Für mich liegt die Magie dieser Lösung in ihrer perfekten Mischung aus Leistung, Automatisierung und Sicherheit. Durch die Isolierung der Infrastrukturverwaltung auf der IPU und das Hosten von Inferenz-Workloads auf dem Hostcomputer haben Intel, Red Hat und F5 ein Setup erstellt, das sowohl effizient als auch sicher ist.
Aus folgenden Gründen ist diese Konfiguration bahnbrechend:
Diese auf Intel OpenVINO basierende Lösung vereint Hardware und Software auf eine Weise, die mühelos erscheint. Intels E2100 IPU, Red Hat OpenShift und F5 NGINX Plus sind ein erstklassiges Beispiel dafür, wie komplexe KI-Inferenz-Pipelines vereinfacht und gleichzeitig die Sicherheit und Skalierbarkeit verbessert werden können.
Egal, ob Sie Entwickler, Infrastrukturarchitekt oder Unternehmensentscheider sind, diese Lösung bietet eine praktische Blaupause für die Verwaltung von KI-Workloads in einer modernen, containerisierten Umgebung. Wenn dies Ihr Interesse geweckt hat, zögern Sie nicht, sich an Intel, F5 oder Red Hat zu wenden, um herauszufinden, wie diese Konfiguration in Ihren Arbeitsablauf passt.
Es ist spannend zu sehen, wie sich diese Technologie weiterentwickelt – und ich persönlich kann es kaum erwarten, die nächsten Innovationen zu sehen. Um mehr zu erfahren, sehen Sie sich mein Demo-Video auf LinkedIn an .