In der heutigen sich rasch entwickelnden Technologielandschaft sind der Einsatz und die Operationalisierung von KI zu entscheidenden Differenzierungsmerkmalen für Unternehmen geworden. Da Unternehmen die Leistungsfähigkeit von KI nutzen, um ihre Entscheidungsfindung zu verbessern und die Effizienz zu steigern oder mithilfe von KI differenzierende Produkte zu entwickeln, haben sich KI-Fabriken als grundlegendes Modell herauskristallisiert. Das Herzstück von KI-Fabriken ist die Retrieval-Augmented Generation (RAG), einer der sieben Bausteine der KI, der dafür sorgt, dass KI-Ausgaben kontextbezogen, präziser und zeitgerechter sind.
Zu Beginn unserer KI-Fabrikserie haben wir eine KI-Fabrik als eine riesige Investition in Speicher-, Netzwerk- und Computertechnik definiert, die Trainings- und Inferenzanforderungen mit hohem Volumen und hoher Leistung erfüllt. In diesem Artikel besprechen wir zwei der von uns definierten KI-Bausteine: RAG und RAG-Korpusmanagement.
Wie eine herkömmliche Produktionsanlage ist eine KI-Fabrik darauf ausgelegt, KI-Ausgaben und -Modelle mithilfe einer sorgfältig orchestrierten Infrastruktur aus Servern, GPUs, DPUs und Speichern zu erstellen. KI-Fabriken unterstützen Training und Inferenz und sind für die Entwicklung von KI-Anwendungen im großen Maßstab von entscheidender Bedeutung. Das wahre Potenzial einer KI-Fabrik wird jedoch freigesetzt, wenn RAG integriert wird, um die kontextbezogene Relevanz der Ergebnisse zu verbessern.
Bevor wir eintauchen, definieren wir Retrieval-Augmented Generation: RAG ist eine KI-Technik, die proprietäre Daten integriert, um KI-Modelle zu ergänzen und kontextbezogene KI-Ausgaben zu liefern. Da die Anwendungsbereitstellung immer verteilter erfolgt und über Hybrid- und Multicloud- Umgebungen gehostet wird, sind die Daten eines Unternehmens überall. Für Organisationen, die den strategischen Vorteil ihrer Daten für die KI erschließen möchten, stellt sich die Frage: Wie verknüpfen wir relevante Daten, um die Eingaben in KI-Modelle wie große Sprachmodelle (LLMs) zu erweitern? Organisationen wenden sich an RAG, um dieses Problem zu lösen und sichere Verbindungen vom KI-Modell zu den verteilten Datensilos zu schaffen. Dadurch ist der Zugriff auf die aktuellsten Informationen möglich, sodass die Ergebnisse zeitnaher, kontextbezogen und präziser sind. Ohne diese Lösung haben selbst fein abgestimmte KI-Modelle keinen Zugriff auf die neuesten Informationen, die sich häufig ändern, sobald das Training abgeschlossen ist.
Was sind einige Beispiele? Zu berücksichtigen sind dabei beispielsweise selbstfahrende Fahrzeuge mit visueller Erkennung und LLMs, wenn diese halluzinieren oder aufgrund der fehlenden kontextuellen Relevanz einer Anfrage Annahmen treffen.
Bei selbstfahrenden Fahrzeugen muss die Inferenz Echtzeitdaten basierend auf dem Standort des Fahrzeugs und der sich ständig ändernden Umgebung umfassen, um sicher durch Straßen mit Fußgängern, Radfahrern und anderen Autos zu navigieren. Für LLMs und am Beispiel eines Kundensupport-Chatbots verwandelt der Zugriff auf Produktinformationen wie Änderungsprotokolle, Wissensdatenbanken, Systemstatus und Telemetrie gepaart mit einzigartigen Kundeninformationen wie Support-Tickets, Kaufhistorie und Kundenprofilen generische LLM-Antworten in wertvolle Ergebnisse.
Hybrid- und Multicloud-Umgebungen werden immer komplexer und Speicherbereitstellungen werden zunehmend in Silos an unterschiedlichen Standorten durchgeführt. Bei F5 nennen wir dieses Phänomen „Feuerball“.
RAG verbessert im Kontext von KI-Fabriken die grundlegenden Inferenzfähigkeiten grundlegender KI-Modelle, indem es zusätzlichen Kontext aus Vektordatenbanken und Inhaltsspeichern abruft, der dann zur Generierung kontextangereicherter Antworten verwendet wird. Innerhalb einer KI-Fabrik verwaltet die Orchestrierungsschicht in RAG komplexe Interaktionen zwischen dem KI-Modell und Erweiterungsdiensten und gewährleistet so eine nahtlose Integration ergänzender Daten in KI-Workflows.
Beispielsweise kann RAG im oben beschriebenen Kundensupport-Szenario auf Daten aus verschiedenen relevanten Datenbanken und Quellen zugreifen und diese integrieren. Das Ergebnis sind KI-Ergebnisse von hoher Relevanz. Durch die Integration von RAG in das AI-Factory-Framework können Unternehmen die Qualität und Aktualität ihrer Inferenzantworten verbessern und so eine effektivere Entscheidungsfindung und betriebliche Effizienz erreichen.
Die KI-Referenzarchitektur von F5 hebt RAG hervor, einen der sieben KI-Bausteine, die für erfolgreiche KI-Infrastrukturen im großen Maßstab erforderlich sind.
RAG Corpus Management konzentriert sich auf die Datenaufnahme und Vorverarbeitung, die für die Bereitstellung von Inferenzen mit RAG wesentlich sind. Dies umfasst eine Reihe von Schritten, darunter Datennormalisierung, Tokenisierung, Einbettung und Auffüllen von Vektordatenbanken, um sicherzustellen, dass der Inhalt optimal für RAG-Aufrufe vorbereitet ist.
Innerhalb einer KI-Fabrik beginnt dieser Prozess mit der Normalisierung verschiedener Datenformate, um einen konsistenten und strukturierten Datensatz zu erstellen. Als Nächstes werden Einbettungen generiert, um diese Daten in ein Format zu konvertieren, das von KI-Modellen abgefragt werden kann. Die aufbereiteten Daten werden in Vektordatenbanken, Wissensgraphen und Inhaltsspeicher eingefügt, sodass sie während der Inferenz für den Echtzeitabruf leicht zugänglich sind. Indem sichergestellt wird, dass die Daten sauber, strukturiert und abrufbar sind, verbessert RAG Corpus Management die allgemeine Effektivität und Präzision der KI-Ausgaben. Dieser Prozess ist für Unternehmen von entscheidender Bedeutung, die weiterhin qualitativ hochwertige, kontextbezogen angereicherte KI-Antworten bereitstellen möchten.
RAG Corpus Management ist einer von sieben KI-Bausteinen, die F5 für eine erfolgreiche KI-Architektur definiert hat.
Obwohl RAG ein zentraler Baustein für KI-Fabriken ist, wird es für die Bereitstellung von KI-Modellen aller Größenordnungen benötigt. Angesichts der Tatsache, dass grundlegende KI-Modelle (z. B. GPT, Llama) anhand öffentlicher Informationen trainiert werden, verschafft die Bereitstellung eines grundlegenden Modells Organisationen keinen ausreichend großen Wettbewerbsvorteil gegenüber anderen Organisationen, die dasselbe Modell bereitstellen. Die Integration von proprietären und nicht öffentlichen Daten über RAG ist für jede Organisation, unabhängig von der Größe ihres KI-Einsatzes, von entscheidender Bedeutung, um Anfragen mit ihren Daten zu ergänzen. Ein Beispiel hierfür wäre der Chatbot für den Kundensupport und die Anforderung einer LLM-gestützten Support-App, die Zugriff auf produkt- und kundenspezifische Informationen haben muss, um eine nützliche Lösung bereitzustellen. Selbst beim Trainieren oder Feinabstimmen von Modellen ist für genauere Ergebnisse der Zugriff auf sich ständig ändernde Daten erforderlich.
Da Unternehmen weiterhin in KI investieren, um Innovation und betriebliche Effizienz voranzutreiben, kann die Bedeutung von RAG in KI-Fabriken nicht genug betont werden. Durch die Verbesserung des Kontextbewusstseins, der Genauigkeit und der Aktualität stellt RAG sicher, dass KI-Modelle sowohl relevantere als auch zuverlässigere Ergebnisse liefern. Für Unternehmen, die eine sichere Integration zwischen ihren Datensilos und KI-Fabriken erstellen möchten, bietet F5 Distributed Cloud Network Connect moderne Autobahnen – es verbindet proprietäre Datenstandorte des Unternehmens sicher, ermöglicht eingeschränkten Zugriff, vereinfacht die Vernetzung und stellt Datenspeicherung und -mobilität über Zonen und Regionen hinweg bereit.
Der Fokus von F5 auf KI endet hier nicht – entdecken Sie , wie F5 KI-Apps überall sichert und bereitstellt .
Möchten Sie mehr über KI-Fabriken erfahren? Entdecken Sie weitere in unserer AI Factory-Blogserie: