Generative KI beschleunigt den Einfluss von KI auf die Infrastruktur. Wir befanden uns bereits in einer Infrastruktur-Renaissance , in der das Interesse und die Bewunderung der Techniker für die einfachen Netzwerk-, Rechen- und Speicherebenen der Rechenzentren wieder auflebten. Vor allem bedingt durch den „Tod“ des Mooreschen Gesetzes und die Entstehung des Edge Computing erlebten wir bereits vor Jahren den Aufstieg spezialisierter Verarbeitungseinheiten – xPUs.
Heutzutage sind GPUs aufgrund der generativen KI – und, um fair zu sein, auch aufgrund von Videospielen – ein allgemein bekannter Begriff und GPU-Optimierung zu einem neuen Bedürfnis geworden.
Das liegt daran, dass eine hohe Nachfrage nach GPUs besteht, das Angebot jedoch knapp ist. Unternehmen geben bereits einen erheblichen Anteil ihres gesamten IT-Budgets für diese leistungsstarke Hardware aus oder planen dies. Ein Teil dieser Investitionen fließt in die eigene Infrastruktur, ein anderer Teil in die Unterstützung der öffentlichen Cloud-Infrastruktur.
Alles dient dazu, die Verfügbarkeit von GPU-Ressourcen für den Betrieb KI-basierter Anwendungen sicherzustellen.
Wenn wir uns jedoch umsehen, erkennen wir, dass die Einführung einer neuen Ressourcenart in die Infrastruktur Herausforderungen mit sich bringt. Lange Zeit haben Organisationen Infrastruktur wie eine austauschbare Ware behandelt. Für sie war alles gleich.
Und das war größtenteils auch der Fall. Organisationen standardisierten sich auf White Boxes oder Markenserver, alle mit derselben Speicher- und Rechenkapazität. Dies vereinfachte den Betrieb der Infrastruktur, da sich das Verkehrsmanagement nicht darum kümmern musste, ob eine Arbeitslast auf Server8756 oder Server4389 ausgeführt wurde. Sie hatten die gleichen Fähigkeiten.
Doch jetzt? GPUs verändern alles. Infrastrukturverantwortliche müssen jetzt wissen, wo GPU-Ressourcen stecken und wie Sie sie einsetzen. Und es gibt Hinweise darauf, dass das nicht reibungslos läuft.
Laut dem State of AI Infrastructure at Scale 2024 „geben 15 % an, dass weniger als 50 % ihrer verfügbaren und gekauften GPUs im Einsatz sind.“
Möglicherweise haben diese 15 % der Unternehmen einfach nicht die Arbeitslast, um mehr als 50 % ihrer GPU-Ressourcen zu nutzen. Ebenso gut könnten sie die Arbeitslast haben, diese aber nicht voll ausschöpfen.
Sicherlich werden sich einige Unternehmen in der letzteren Kategorie wiederfinden und sich den Kopf darüber zerbrechen, warum ihre KI-Apps nicht die Leistung erbringen, die die Benutzer erwarten, obwohl sie über reichlich freie GPU-Kapazität verfügen.
Dabei geht es auch um die Infrastruktur und darum, Workloads optimal an die benötigten Ressourcen anzupassen. Denn nicht jeder Workload in einer KI-Anwendung braucht GPU-Kapazität. Profitieren wird davon vor allem der Inferenzserver, kaum ein anderer Workload. Das erfordert strategische Architekturarbeit auf der Infrastrukturebene, damit GPU-intensiven Workloads GPU-fähige Systeme zugewiesen sind und andere Workloads auf üblichen Systemen laufen.
Das heißt, Sie müssen Richtlinien bereitstellen, die erkennen, welche Knoten GPU-fähig sind und welche nicht. Das ist ein wesentlicher Teil der GPU-Optimierung. Außerdem müssen auch die App-Dienste, die Anfragen an diese Ressourcen verteilen, intelligenter werden. Lastausgleich, Ingress-Kontrolle und Gateways, die Anfragen verteilen, spielen eine zentrale Rolle bei der effizienteren Nutzung der Infrastruktur. Wenn jede Anfrage nur an ein oder zwei GPU-fähige Systeme geht, leiden deren Leistung darunter, und Sie haben ungenutzte GPU-Kapazitäten, für die Sie viel bezahlt haben.
Dies kann auch bedeuten, diese GPU-Ressourcen in der öffentlichen Cloud zu nutzen. Und dazu müssen Netzwerkdienste genutzt werden, um die Sicherheit der gemeinsam genutzten Daten zu gewährleisten.
KI-Anwendungen werden die Infrastruktur stark beeinflussen – sowohl in ihrer Verteilung als auch darin, wie wir sie in Echtzeit bereitstellen und steuern. Sie benötigen mehr Telemetrie, damit Sie jederzeit einen aktuellen Überblick über verfügbare Ressourcen und deren Standorte haben. Zudem sorgen wir mit passender Automatisierung dafür, dass die Bereitstellung genau auf die Arbeitslast abgestimmt ist.
Aus diesem Grund müssen Organisationen ihre gesamte Unternehmensarchitektur modernisieren . Denn es geht nicht mehr nur um Schichten oder Ebenen, sondern darum, wie diese Schichten und Ebenen miteinander verbunden sind und sich gegenseitig unterstützen, um den Anforderungen eines digital ausgereiften Unternehmens gerecht zu werden, das die Leistungsfähigkeit von KI nutzen kann.