BLOG

Apresentamos a Tabela de Líderes CASI

Miniatura Lee Ennis
Lee Ennis
Publicado em 29 de setembro de 2025

A adoção da IA está acontecendo mais rápido do que qualquer outra tecnologia antes dela. 

O que começou com poucos grandes modelos e fornecedores se expandiu para um extenso ecossistema de modelos de IA open source e comerciais, cada um com suas vantagens e riscos. Com milhões de modelos disponíveis, sua empresa, ao adotar IA, precisa de informações claras sobre riscos que expliquem exatamente quais ameaças cada modelo introduz no seu ambiente.

Após a aquisição da CalypsoAI pela F5, temos o prazer de apresentar o Ranking Comprehensive AI Security Index (CASI), que oferece aos líderes de IA e GRC uma análise detalhada sobre as diferentes composições de risco dos modelos de IA mais conhecidos. Fundada em 2018, a CalypsoAI é referência em pesquisa de segurança de IA, criando uma das maiores bibliotecas de vulnerabilidades de IA e atualizando-a mensalmente com mais de 10.000 novas tentativas de ataque. Com essa base, o ranking avalia de modo integrado a segurança dos modelos básicos e dos sistemas de IA, focalizando os modelos mais populares e aqueles usados por nossos clientes. 

Como funciona o teste CASI?

Desenvolvemos essas ferramentas para atender às necessidades do negócio ao escolher um modelo pronto para produção, ajudando CISOs e desenvolvedores a priorizar a segurança desde o início. As tabelas de classificação eliminam o ruído no universo da IA, condensando questões complexas de segurança do modelo em cinco métricas essenciais:

  1. Pontuação CASI - Métrica composta que mede a segurança geral de um modelo (metodologia abaixo).
  2. Pontuação AWR - Avalia o potencial de um modelo para comprometer todo um sistema de IA. Fazemos isso ao mobilizar nossa equipe de agentes autônomos de ataque, treinados para invadir o sistema, extrair informações e comprometer a infraestrutura. Assim, esses agentes conseguem extrair dados pessoais confidenciais de vetores de armazenamento, compreender a arquitetura do sistema e verificar o alinhamento do modelo com instruções claras.
  3. Desempenho - O desempenho médio do modelo considera benchmarks reconhecidos como MMLU, GPQA, MATH e HumanEval.
  4. Razão risco-desempenho (RTP) - Entenda o equilíbrio entre a segurança e o desempenho do modelo.
  5. Custo de Segurança (CoS) - O custo atual de inferência em relação ao CASI do modelo, avaliando o impacto financeiro da segurança.

Ranking CASI

Ranking do Índice Abrangente de Segurança em IA (CASI) da F5 Labs.

O que é a pontuação CASI e por que ela importa?

CASI é uma métrica criada para responder a uma pergunta complexa: “Quão seguro está meu modelo?”. Uma pontuação CASI mais alta significa um modelo ou aplicação mais seguro. Embora muitos estudos sobre ataques ou avaliações de modelos usem a Taxa de Sucesso do Ataque (ASR), essa métrica costuma desconsiderar as diferenças no impacto de cada ataque. O ASR tradicional trata todos os ataques como iguais, o que engana. Por exemplo, um ataque que rompe uma trava de bicicleta não pode ser comparado a outro que compromete códigos de lançamento nuclear. Do mesmo modo, na IA, um modelo pequeno e vulnerável pode ser facilmente invadido com uma simples solicitação de dados pessoais confidenciais, enquanto um modelo maior pode requerer técnicas avançadas, como agentes de IA autônomos e coordenados, para quebrar seu alinhamento. CASI diferencia esses cenários ao separar ataques simples dos complexos e determina o Ponto de Ruptura Defensivo (DBP) do modelo: o caminho de menor resistência e o mínimo de recursos computacionais necessários para um ataque bem-sucedido.

O que significa a pontuação AWR?

As varreduras padrão de vulnerabilidade em IA oferecem uma visão inicial da segurança do modelo, mas mal arranham a superfície para entender como um sistema de IA pode reagir durante ataques reais. 

Para fechar essa lacuna, contamos com F5 AI Red Team, uma tecnologia avançada de red-teaming que coordena enxames de agentes autônomos de IA simulando uma equipe de analistas persistentes e inteligentes. Esses agentes investigam, aprendem e se adaptam – executando ataques múltiplos planejados para expor vulnerabilidades críticas que testes estáticos costumam não identificar.

Esse rigoroso processo de testes gera a pontuação AWR, uma medida quantitativa da força defensiva de um sistema de IA, avaliada numa escala de 0 a 100. Uma pontuação AWR mais alta indica que um invasor mais sofisticado, persistente e conhecimento técnico precisará para comprometer o sistema. Esse número comparável, derivado de cenários complexos de ataques, é calculado em três categorias críticas:

  • Sofisticação necessária – Qual o nível mínimo de astúcia do atacante para superar a IA? O sistema resiste a estratégias avançadas e personalizadas ou cai diante de ataques mais simples e comuns?
  • Resistência defensiva – Quanto tempo você consegue manter a segurança do sistema de IA durante um ataque adaptativo prolongado? Ele cede após algumas interações ou se mantém firme contra ataques contínuos e em transformação?
  • Contra-inteligência – A IA está treinando os atacantes sem querer? Esse vetor avalia se um ataque falho revela informações críticas, como a natureza dos seus filtros, e entrega sem querer um mapa para ataques futuros.

Quais as tendências mais recentes?

Nossa equipe da F5 Labs fornece uma análise detalhada das tendências recentes identificadas em nossos testes de setembro. Para obter informações aprofundadas sobre as técnicas, vulnerabilidades e ataques em crescimento, acompanhe nossas atualizações mensais para estar sempre à frente nas tendências de segurança em IA.

Acompanhando a evolução dos modelos de IA

A superfície de ataque da IA seguirá evoluindo, e a F5 se dedica a fornecer às organizações as informações necessárias para acompanhar e adaptar a segurança da IA. Como ocorre com toda nova tecnologia, a IA sempre terá um grau de risco acima de zero. O primeiro passo para uma segurança completa em IA é identificar onde estão os riscos, e os Leaderboards do CASI continuarão a orientar esse entendimento à medida que o cenário dos modelos de IA muda constantemente.

Quer mais insights? Aplicamos o mesmo red-teaming proativo que usamos para avaliar modelos base diretamente no seu ambiente de IA, oferecendo análises ainda mais aprofundadas com o F5 AI Red Team.