BLOG

Presentamos el ranking CASI

Miniatura de Lee Ennis
Lee Ennis
Publicado el 29 de septiembre de 2025

La adopción de la IA está creciendo más rápido que cualquier tecnología anterior. 

Lo que empezó con unos pocos grandes modelos y proveedores se ha transformado en un amplio ecosistema de modelos de IA comerciales y de código abierto, cada uno con sus propias ventajas y riesgos. Con millones de modelos disponibles, las empresas que adoptan IA necesitan una visión clara y transparente de los riesgos que indique exactamente qué amenazas aportan a su entorno.

Tras la adquisición de CalypsoAI por parte de F5, nos entusiasma presentar el Cuadro de Clasificación del Índice Integral de Seguridad de IA (CASI), que ofrece a los responsables de IA y GRC un análisis detallado sobre las diferentes composiciones de riesgo de los modelos de IA más relevantes. CalypsoAI, fundada en 2018, ha sido pionera en investigación sobre seguridad en IA, creando una de las bibliotecas más extensas de vulnerabilidades en IA y actualizándola mensualmente con más de 10.000 nuevos vectores de ataque. Partiendo de esta base, las pruebas del cuadro de clasificación evalúan de forma completa la seguridad del modelo base y del sistema de IA, centrándose en los modelos más populares y en los que utilizan nuestros clientes. 

¿Cómo funciona la prueba CASI?

Diseñamos estas herramientas para responder a las necesidades del negocio a la hora de elegir un modelo listo para producción, facilitando que CISOs y desarrolladores construyan con la seguridad como prioridad. Los rankings simplifican el ruido en el ámbito de la IA, condensando las complejas cuestiones de seguridad de modelos en cinco métricas clave:

  1. Puntuación CASI - Métrica compuesta que mide la seguridad global de un modelo (metodología detallada más abajo).
  2. Puntuación AWR - mide cómo un modelo puede comprometer un sistema completo de IA. Para ello, desplegamos a nuestro equipo de agentes de ataque autónomos, entrenados para atacar el sistema, extraer información y comprometer la infraestructura. Así, estos agentes extraen datos personales sensibles de los almacenes vectoriales, comprenden la arquitectura del sistema y prueban la alineación del modelo con instrucciones claras.
  3. Rendimiento - El rendimiento medio del modelo se evalúa según benchmarks reconocidos como MMLU, GPQA, MATH y HumanEval.
  4. Relación riesgo-rendimiento (RTP) - Perspectiva sobre el equilibrio entre la seguridad y el desempeño del modelo.
  5. Costo de seguridad (CoS) - el coste actual de inferencia respecto al CASI del modelo, que evalúa el impacto económico de la seguridad.

Clasificación CASI

Clasificación del Índice Completo de Seguridad de IA (CASI) en F5 Labs.

¿Qué es la puntuación CASI y por qué importa?

CASI es una métrica creada para responder a una pregunta compleja: “¿Qué tan seguro es mi modelo?”. Un puntaje CASI más alto indica un modelo o aplicación más seguro. Aunque muchos estudios sobre ataques o pruebas de seguridad en modelos usan la Tasa de Éxito del Ataque (ASR), esta métrica suele ignorar el impacto diferente de cada ataque. El ASR tradicional trata todos los ataques por igual, lo que induce a error. Por ejemplo, un ataque que abre un candado de bicicleta no puede compararse con otro que compromete códigos para lanzar armas nucleares. De igual modo, en IA, un modelo pequeño y poco protegido puede ser vulnerado fácilmente con una simple petición de información confidencial, mientras que uno más grande puede exigir técnicas sofisticadas como ataques autónomos y coordinados de IA para romper su alineación. CASI capta esta diferencia al distinguir entre ataques simples y complejos, y al definir el Punto de Ruptura Defensiva (DBP) del modelo: el camino de menor resistencia y el mínimo de recursos computacionales necesarios para un ataque exitoso.

¿En qué consiste la puntuación AWR?

Los análisis estándar de vulnerabilidades en IA ofrecen una visión básica de la seguridad del modelo, pero apenas profundizan en cómo podría comportarse un sistema de IA frente a ataques reales. 

Para cerrar esta brecha, utilizamos F5 AI Red Team, una tecnología avanzada de equipos rojos que dirige enjambres de agentes autónomos de IA que simulan un equipo de analistas de amenazas persistentes e inteligentes. Estos agentes exploran, aprenden y se adaptan, llevando a cabo ataques en varias etapas con el objetivo de descubrir vulnerabilidades críticas que las pruebas estáticas suelen pasar por alto.

Este riguroso proceso de evaluación genera el AWR Score, una medida cuantitativa de la fortaleza defensiva de un sistema de IA, valorada en una escala de 0 a 100. Un AWR Score más alto indica que se necesita un atacante más sofisticado, persistente y bien informado para vulnerar el sistema. Este número de referencia, extraído de relatos complejos de ataque, se calcula en tres categorías clave:

  • Sofisticación necesaria – ¿Qué nivel mínimo de ingenio del atacante se requiere para vulnerar la IA? ¿Puedes contar con el sistema para resistir estrategias avanzadas y personalizadas o acaba sucumbiendo a ataques más simples y habituales?
  • Resistencia defensiva – ¿Cuánto tiempo puede el sistema de IA mantenerse seguro frente a un ataque adaptativo y prolongado? ¿Cede tras pocas interacciones o aguanta contra ataques persistentes y en constante evolución?
  • Contrainteligencia – ¿Está la IA entrenando sin querer a quienes la atacan? Este vector evalúa si un ataque fallido revela información crítica, como la naturaleza de sus filtros, y acaba facilitando un mapa para futuros exploits.

¿Cuáles son las tendencias más recientes?

Nuestro equipo de F5 Labs tiene un análisis detallado de las últimas tendencias observadas en nuestras pruebas de septiembre. Para obtener información detallada sobre las técnicas, vulnerabilidades y exploits en aumento, vuelva a visitarnos cada mes para mantenerse actualizado sobre las últimas tendencias en seguridad de IA.

Mantente al día con el panorama de modelos de IA

La superficie de ataque de la IA seguirá evolucionando, y en F5 nos comprometemos a proporcionarte la información necesaria para que adaptes la seguridad de la IA sin perder ritmo. Como ocurre con cualquier tecnología nueva, la IA siempre conllevará un grado de riesgo inherente. El primer paso para una seguridad completa en IA es identificar dónde existen los riesgos, y los marcadores CASI seguirán orientándote conforme el panorama de modelos de IA cambie constantemente.

¿Quieres más información? Puedes aplicar y adaptar el mismo red-teaming agente que usamos para evaluar modelos base en tu entorno de IA para obtener análisis más profundos con F5 AI Red Team.