BLOG

Die CASI-Bestenliste

Lee Ennis Vorschaubild
Lee Ennis
Veröffentlicht am 29. September 2025

Die Akzeptanz von KI nimmt schneller zu als bei jeder anderen Technologie zuvor. 

Was mit einigen wenigen großen Modellen und Anbietern begann, hat sich zu einem riesigen Ökosystem aus Open-Source- und kommerziellen KI-Modellen entwickelt, jedes mit seinen eigenen Vorteilen und Risiken. Angesichts der Millionen von Modellen, aus denen sie wählen können, benötigen Unternehmen, die KI einsetzen, transparente Einblicke in die Risiken , die genau zeigen, welche Bedrohungen jedes Modell für ihre Umgebung mit sich bringt .

Nach der Übernahme von CalypsoAI durch F5 stellen wir Ihnen mit dem Comprehensive AI Security Index (CASI) Leaderboard ein Tool vor, das KI- und GRC-Verantwortlichen tiefgehende Einblicke in die unterschiedlichen Risikoprofile der führenden KI-Modelle bietet. CalypsoAI, seit 2018 ein Vorreiter in der KI-Sicherheitsforschung, hat eine der umfangreichsten Bibliotheken für KI-Sicherheitslücken aufgebaut und erweitert sie monatlich um über 10.000 neue Angriffsszenarien. Darauf aufbauend bewertet das Leaderboard die Sicherheit von Basismodellen und KI-Systemen umfassend und richtet den Fokus auf die populärsten sowie von unseren Kunden eingesetzten Modelle. 

Wie funktioniert der CASI-Test?

Wir haben diese Tools entwickelt, um Ihre geschäftlichen Anforderungen bei der Auswahl eines produktionsreifen Modells zu erfüllen und CISOs sowie Entwickler darin zu unterstützen, Sicherheit konsequent in den Mittelpunkt zu rücken. Die Bestenlisten bringen Klarheit in den KI-Bereich und fassen komplexe Fragen zur Modellsicherheit in fünf prägnante Kennzahlen zusammen:

  1. CASI-Score – Ein zusammengesetzter Wert, der die gesamte Sicherheit eines Modells misst (Methodik siehe unten).
  2. AWR-Score – Zeigt auf, wie ein Modell ein gesamtes KI-System gefährden kann. Wir setzen dazu unser Team autonomer Angriffsagenten ein, die darauf spezialisiert sind, das System anzugreifen, Informationen zu gewinnen und die Infrastruktur zu erschüttern. So gewinnen diese Agenten vertrauliche personenbezogene Daten aus Vektorspeichern, analysieren die Systemarchitektur und prüfen die Übereinstimmung des Modells mit klaren Vorgaben.
  3. Leistung – Die durchschnittliche Modellleistung beruht auf bewährten Benchmarks wie MMLU, GPQA, MATH und HumanEval.
  4. Risiko-Leistungs-Verhältnis (RTP) – Erkenntnisse zum Abwägen von Modellsicherheit und Leistung.
  5. Kosten der Sicherheit (CoS) – Die aktuellen Inferenzkosten im Verhältnis zum CASI des Modells zur Bewertung der finanziellen Auswirkungen der Sicherheit.

CASI-Rangliste

Die Bestenliste des Comprehensive AI Security Index (CASI) bei F5 Labs.

Was bedeutet der CASI-Score und warum ist er relevant?

CASI ist eine Metrik, mit der Sie die komplexe Frage beantworten können: „Wie sicher ist mein Modell?“. Ein höherer CASI-Wert zeigt Ihnen ein sichereres Modell oder eine sicherere Anwendung an. Viele Untersuchungen zu Angriffs- und Red-Teaming-Methoden stützen sich auf die Angriffserfolgsrate (ASR), doch diese Kennzahl berücksichtigt oft nicht die unterschiedlichen Auswirkungen einzelner Angriffe. Das traditionelle ASR behandelt alle Angriffe gleich, was Sie in die Irre führt. Ein Angriff, der ein Fahrradschloss knackt, lässt sich nicht mit einem Angriff vergleichen, der die Codes für den Start von Atomwaffen kompromittiert. Ähnlich ist es bei KI: Ein kleines, ungeschütztes Modell lässt sich mit einer einfachen Anfrage nach vertraulichen Daten leicht angreifen, während ein größeres Modell ausgefeilte Methoden wie autonome, koordinierte KI-Agenten benötigt, damit seine Ausrichtung durchbrochen wird. CASI berücksichtigt diese Feinheit, indem es einfache und komplexe Angriffe voneinander abgrenzt und den Defensive Breaking Point (DBP) eines Modells ermittelt: den Weg mit dem geringsten Widerstand und dem geringsten erforderlichen Rechenaufwand, um einen Angriff erfolgreich durchzuführen.

Was bedeutet der AWR-Score?

Standardmäßige KI-Schwachstellenscans geben Ihnen eine Basisübersicht über die Sicherheit des Modells, doch sie reichen kaum aus, um nachzuvollziehen, wie sich ein KI-System bei echten Angriffen verhält. 

Um diese Lücke zu schließen, setzen wir F5 AI Red Team ein – eine ausgeklügelte Red-Teaming-Technologie, die Schwärme autonomer KI-Agenten steuert und ein Team aus engagierten, intelligenten Bedrohungsanalysten simuliert. Diese Agenten testen, lernen und passen sich an, indem sie mehrstufige Angriffe durchführen, um kritische Schwachstellen aufzudecken, die statische Tests häufig übersehen.

Dieses sorgfältige Testverfahren liefert den AWR-Score, eine quantitative Kennzahl zur Verteidigungsstärke eines KI-Systems, bewertet auf einer Skala von 0 bis 100. Ein höherer AWR-Score zeigt Ihnen, dass ein erfahrenerer, ausdauernderer und besser informierter Angreifer nötig ist, um das System zu kompromittieren. Diese messbare Größe, basierend auf komplexen Angriffsszenarien, wird in drei wesentlichen Kategorien berechnet:

  • Erforderliche Raffinesse – Welches Mindestmaß an Einfallsreichtum braucht ein Angreifer, um die KI zu überwinden? Hält das System fortgeschrittenen, gezielten Strategien stand oder fällt es auf einfachere, häufige Angriffe herein?
  • Defensive Ausdauer – Wie lange hält das KI-System einem langanhaltenden, adaptiven Angriff stand? Bricht es nach wenigen Versuchen zusammen oder widersteht es konsequent hartnäckigen, sich wandelnden Attacken?
  • Spionageabwehr – Trainiert die KI ihre Angreifer unfreiwillig? Wir prüfen, ob ein gescheiterter Angriff sensible Details wie die Filtermethoden offenlegt und damit unbeabsichtigt Angreifern eine Anleitung für künftige Attacken liefert.

Welche Trends bestimmen derzeit den Markt?

Unser Team bei F5 Labs liefert eine umfassende Analyse der neuesten Trends, die wir bei unseren Tests im September festgestellt haben. Um fundierte Einblicke in die aufkommenden Techniken, Schwachstellen und Exploits zu erhalten, besuchen Sie uns jeden Monat erneut und bleiben Sie über die aktuellen Entwicklungen in der KI-Sicherheit informiert.

Mit der Entwicklung bei KI-Modellen Schritt halten

Die Angriffsfläche von KI wird sich stetig weiterentwickeln, und wir bei F5 unterstützen Sie dabei, die nötigen Erkenntnisse zu gewinnen, um Ihre KI-Sicherheit zielsicher anzupassen. Wie bei jeder neuen Technologie birgt KI immer ein gewisses, nicht zu vernachlässigendes Risiko. Zu umfassender KI-Sicherheit gehört es, genau zu verstehen, wo Risiken bestehen. Die CASI Leaderboards helfen Ihnen dabei, diesen Überblick auch bei der sich ständig wandelnden KI-Modelllandschaft zu behalten.

Möchten Sie noch mehr Einblicke gewinnen? Wir setzen das agentische Red-Teaming, das wir zur Bewertung von Basismodellen nutzen, gezielt in Ihrer KI-Umgebung ein und passen es ganz auf Ihre Bedürfnisse an – so erhalten Sie mit F5 AI Red Team noch tiefere Einblicke.