AI 도입 속도가 그 어느 기술보다도 빠르게 증가하고 있습니다.
몇몇 대형 모델과 공급업체로 시작된 것이 이제는 각각 장점과 위험을 지닌 오픈 소스와 상용 AI 모델의 광대한 생태계로 확산되었습니다. 선택할 수 있는 모델이 수백만 개에 달하기 때문에 AI를 도입하는 기업에서는 각 모델이 환경에 어떤 위협을 가져오는지 정확히 보여주는 투명한 위험 통찰력이 필요합니다 .
F5가 CalypsoAI를 인수한 후, AI 및 GRC 리더에게 주요 AI 모델의 다양한 위험 요소를 상세히 제공하는 종합 AI 보안 지수(CASI) 리더보드를 선보이게 되어 기쁩니다. 2018년 설립된 CalypsoAI는 AI 보안 연구의 선구자로서, 최대 규모의 AI 취약성 라이브러리를 구축하고 월 10,000건이 넘는 새로운 공격 프롬프트를 꾸준히 갱신하고 있습니다. 이 같은 기반 위에 리더보드는 가장 인기 있는 모델과 고객이 사용하는 모델을 종합적으로 평가해 기본 모델과 AI 시스템의 보안을 검증합니다.
이 도구들은 생산에 바로 투입할 수 있는 모델을 선택하는 비즈니스 요구에 맞춰 개발되어, CISO와 개발자가 보안을 최우선으로 하여 구축하도록 돕습니다. 리더보드는 AI 분야의 혼란을 가르고 복잡한 모델 보안 문제를 다섯 가지 핵심 지표로 명확히 합니다.
CASI는 다음과 같은 복잡한 질문에 답하기 위해 만든 지표입니다: “내 모델은 얼마나 안전한가요?”. CASI 점수가 높을수록 모델이나 애플리케이션의 보안성이 더 뛰어납니다. 많은 연구가 공격 성공률(ASR)에 의존해 모델을 분석하지만, 이 지표는 공격별 영향력의 차이를 간과합니다. 기존 ASR은 모든 공격을 동등하게 취급해 오해를 불러일으킵니다. 예를 들어 자전거 자물쇠를 우회하는 공격을 핵 발사 코드를 훔치는 공격과 같게 볼 수 없습니다. AI도 마찬가지로, 작은 보안 취약 모델은 민감한 정보를 단순 요청만으로 쉽게 뚫릴 수 있지만, 대형 모델은 자율적이고 협력적인 고도화된 AI 공격자가 필요할 수 있습니다. CASI는 단순 공격과 복잡한 공격을 구분하고 모델의 방어 돌파점(DBP)을 정해, 성공적 공격에 필요한 최소 저항 경로와 컴퓨팅 자원을 측정해 그 차이를 정확히 반영합니다.
표준 AI 취약성 검사는 모델 보안의 기본 현황을 제공하지만, 실제 공격 상황에서 AI 시스템이 어떻게 작동할지 이해하는 데는 한계가 있습니다.
이 격차를 해결하기 위해 우리는 자율 AI 에이전트 군단을 조종하는 정교한 레드팀 기술인 F5 AI Red Team을 활용해 끈질기고 지능적인 위협 분석가 팀을 재현합니다. 이 에이전트들은 탐색하고 학습하며 적응해서, 정적 테스트가 놓치기 쉬운 핵심 취약점을 드러내는 다단계 공격을 수행합니다.
이 엄격한 테스트 과정을 통해 AWR 점수가 산출됩니다. AWR 점수는 AI 시스템의 방어 강도를 0에서 100까지 수치로 나타냅니다. AWR 점수가 높을수록 더 정교하고 끈질기며 정보에 밝은 공격자가 있어야 시스템을 뚫을 수 있습니다. 복잡한 공격 시나리오를 바탕으로 산출된 이 벤치마크 수치는 세 가지 주요 범주에서 계산합니다.
F5 Labs 팀이 9월 테스트에서 확인한 최신 동향에 대해 상세 분석을 제공합니다. 부상하는 기술과 취약점, 악용 사례에 대한 깊이 있는 통찰을 위해 매월 방문해 AI 보안의 최신 동향을 간편하게 확인하세요.
AI 공격 표면은 계속해서 변하고 있으며, 우리는 여러분이 AI 보안에 능동적으로 대응할 수 있도록 필요한 통찰력을 제공하겠습니다. 어떤 새로운 기술과 마찬가지로 AI도 항상 일정 수준의 위험을 동반합니다. 포괄적인 AI 보안을 구현하려면 우선 위험이 어디에 존재하는지 파악해야 합니다. CASI 리더보드는 AI 모델 환경이 끊임없이 변화하는 가운데 그 이해를 지속적으로 이끌어갈 것입니다.
더 많은 통찰을 원하시나요? 기본 모델 평가에 사용하는 에이전트적 레드팀 방식을 F5 AI Red Team으로 귀사의 AI 환경에 맞게 적용해 더 깊이 있는 통찰을 제공합니다.