BLOG

Beschleunigung des Modelltrainings mit synthetischen Daten

Chris Ford Miniaturbild
Chris Ford
Veröffentlicht am 13. Februar 2025

Das AI Data Fabric von F5 hilft uns, das Training und die Bereitstellung von Modellen des maschinellen Lernens (ML) für eine Vielzahl von Anwendungsfällen zu beschleunigen. Eine der größten Herausforderungen, die mithilfe des AI Data Fabric gelöst werden können, ist der Mangel an guten Trainingsdaten. Bei jeder ML-Initiative sind Qualität, Vielfalt und Volumen der Daten für die Erstellung effektiver Modelle von entscheidender Bedeutung.  

Echtzeitdaten waren schon immer die wichtigste Ressource für das Training von ML-Algorithmen. Das AI Data Fabric profitiert zweifellos vom technologischen Fußabdruck des umfangreichen Kundenstamms von F5 und dem Zugriff auf hochwertige, reale Daten. Schließlich befindet sich F5 im Datenpfad von fast der Hälfte aller Applications weltweit, wobei täglich 550 Petabyte durch F5-Produkte fließen. 

In den letzten Jahren haben sich synthetische Daten jedoch als überzeugende Quelle für Trainingsdaten herausgestellt und gewinnen für unser ML-Ökosystem rasch an Bedeutung.  

Was sind synthetische Daten?

Synthetische Daten beziehen sich auf künstlich generierte Daten, die die Eigenschaften realer Datensätze nachahmen. Nachdem wir die statistischen Eigenschaften und Strukturen realer Daten gelernt haben, können wir künstliche Daten generieren, die dieselben Eigenschaften wie die authentischen Daten haben. Mithilfe dieser Techniken kann das AI Data Fabric riesige Datenmengen generieren, die denen ähneln, die wir von Kunden erfassen.  

Warum synthetische Daten verwenden?

Die Verwendung synthetischer Daten bietet zahlreiche Vorteile. An erster Stelle stehen Datenschutz und Compliance. Synthetische Daten können ohne vertrauliche Informationen erstellt werden und sind daher eine ausgezeichnete Wahl für unsere Kunden, die an strenge Datenschutzbestimmungen oder Sicherheitsrichtlinien gebunden sind. Durch die Verwendung synthetischer Versionen sensibler Datensätze können wir Daten teilen und analysieren, ohne Kundendaten zu gefährden. Wir können auch sicher sein, dass Modelle nicht mit Kundendaten trainiert werden.

Zweitens kann die Arbeit mit Echtzeitdaten zeitaufwändig und teuer sein. Das Sammeln und Kennzeichnen riesiger Datenmengen stellt eine echte Belastung dar, die die Innovationsgeschwindigkeit begrenzt. Durch die Generierung von Daten werden die Kosten erheblich gesenkt und unser Modellentwicklungszyklus beschleunigt.

Auch die Verfügbarkeit realer Daten kann eingeschränkt sein. Gute Trainingsdaten sind rar, insbesondere für seltene Ereignisse. Synthetische Daten helfen dabei, Lücken zu schließen und unterrepräsentierte Klassen in bestimmten Szenarien auszugleichen. In einem Datensatz zur Erkennung von Angriffen könnte es beispielsweise deutlich mehr Routinetransaktionen geben als bösartige. Mit synthetischen Daten können wir diesen Mangel überwinden – unsere Teams können Randfälle testen, die in realen Daten nicht dargestellt sind, und hypothetische Situationen einfacher untersuchen.  

Schließlich gibt es Sicherheit. Mit synthetischen Daten können wir gegnerische Beispiele generieren, die dann zum Testen der Modellsicherheit gegen Angriffe verwendet werden. Synthetische Daten helfen sogar beim Schutz vor Angriffen wie Datenvergiftung, bei der Angreifer Trainingsdaten manipulieren, um KI-Modelle zu beschädigen.

Die Nachteile synthetischer Daten

Synthetische Daten bieten zwar viele Vorteile, es gibt jedoch auch einige Vorsichtsmaßnahmen zu beachten.  Beispielsweise erfordert die Generierung synthetischer Daten fortgeschrittene Algorithmen und ein hohes Maß an Fachwissen, damit sie funktioniert. Auch hinsichtlich des Realismus sind bei synthetischen Daten Probleme vorhanden: Modelle, die ausschließlich mit synthetischen Daten trainiert wurden, funktionieren in realen Situationen möglicherweise nicht gut. Entweder sind die Trainingsdaten zu simpel und weisen nicht die Komplexität und Nuancen echter Daten auf, oder die Modelle passen sich zu stark an Muster in synthetischen Daten an, die in realen Szenarien möglicherweise nicht vorhanden sind.

Trotz dieser Vorsichtsmaßnahmen können synthetische Daten in Szenarien sehr nützlich sein, in denen reale Daten knapp, teuer oder sensibel sind. Wenn wir die Einschränkungen verstehen und sie im Modellentwicklungsprozess berücksichtigen, ist die Generierung synthetischer Daten ein leistungsstarkes Werkzeug im Arsenal des maschinellen Lernens von F5. Synthetische Daten helfen uns, schneller zu sein und unseren Kunden in Form zuverlässiger ML-Modelle viel bessere Ergebnisse zu liefern.