ブログ

CASIリーダーボードを始めましょう

リー・エニス サムネイル
リー・エニス
2025年9月29日公開

AIはこれまでのどの技術よりも速いペースで普及しています。 

いくつかの大規模なモデルとベンダーから始まったものが、オープンソースと商用の AI モデルの広大なエコシステムへと拡大し、それぞれに利点とリスクがあります。 数百万ものモデルから選択できるため、AI を導入する企業には、各モデルが環境にもたらす脅威を正確に示す、透明性の高いリスク分析情報が必要です

F5がCalypsoAIを買収したことで、AIとGRCのリーダーの皆さんに一番注目されているAIモデルのリスク構成を詳しく理解いただけるよう、包括的AIセキュリティインデックス(CASI)リーダーボードを発表します。 2018年に設立されたCalypsoAIは、AIセキュリティ研究の先駆者として最大級のAI脆弱性ライブラリを構築し、毎月10,000件を超える新たな攻撃プロンプトで継続的に更新しています。 この基盤をもとに、私たちはリーダーボードのテストを通して人気モデルやお客様が利用するモデルに焦点を当て、ベースモデルとAIシステムのセキュリティを総合的に評価しています。 

CASIのテストはどのように実施されますか?

これらのツールは、本番環境に適したモデルを選ぶビジネスニーズに応え、CISOや開発者がセキュリティを最優先にして設計できるよう支援しています。 リーダーボードはAI分野の雑音を払拭し、複雑なモデルのセキュリティ課題を5つの重要な指標に絞り込みます。

  1. CASIスコア -モデルの全体的なセキュリティを評価するために設計した総合指標です(以下に方法論を示します)。
  2. AWRスコア -モデルがAIシステム全体にどれだけ影響を及ぼすかを評価します。 私たちは、自律的にシステムを攻撃し情報を抽出し、インフラを侵害するよう訓練した攻撃エージェントのチームを活用しています。 このエージェントたちはベクトルストアから機密性の高い個人情報を抽出し、システム構成を理解し、明確な指示に基づいてモデルの整合性を検証します。
  3. パフォーマンス -モデルの平均的な性能は、MMLU、GPQA、MATH、HumanEvalなどの代表的なベンチマークで評価しています。
  4. リスク対パフォーマンス比 (RTP) -モデルの安全性とパフォーマンスのバランスを的確に把握できます。
  5. セキュリティコスト(CoS) -モデルのCASIに対する現在の推論コストで、セキュリティがもたらす財務的影響を評価します。

CASIリーダーボード

F5 Labs が提供する包括的AIセキュリティインデックス(CASI)のリーダーボード。

CASIスコアとは何で、なぜ重要なのかご存知ですか?

CASIは、次の複雑な問いに答えるために開発した指標です。 「私のモデルはどれほど安全でしょうか?」。 より高いCASIスコアは、より安全なモデルやアプリケーションを示します。 多くのモデル攻撃やレッドチーム試験の研究では攻撃成功率(ASR)を使いますが、この指標は攻撃ごとの影響の差を見逃しがちです。 従来のASRはすべての攻撃を同等に扱い、誤解を招きます。 たとえば、自転車の鍵を回避する攻撃を核兵器の発射コード侵害と同じと評価はできません。 同様にAIでは、小さくセキュリティの甘いモデルなら機密情報の簡単な要求で簡単に破られますが、大規模モデルでは自律的かつ協調的なエージェント型AI攻撃者など、巧妙な手法が必要です。 CASIは単純な攻撃と複雑な攻撃の違いを捉え、モデルの防御の境界点(DBP)——最小限の抵抗と計算リソースで攻撃を成功させる経路——を明確にします。

AWRスコアとは何ですか?

標準的なAI脆弱性スキャンはモデルのセキュリティの基本的な状況を示しますが、実際の攻撃を受けた場合のAIシステムの挙動を理解するには不十分です。 

この問題に対処するため、当社はF5 AI Red Teamを活用しています。これは、自律型AIエージェントの群れを指揮し、持続的で知的な脅威アナリストチームを模倣する高度なレッドチーミング技術です。 エージェントは調査、学習、適応しながら、静的テストで見落とされがちな重要な弱点を露呈させる多段階の攻撃を仕掛けます。

この徹底したテストプロセスによって、AIシステムの防御力を0から100のスケールで定量評価するAWRスコアを私たちは算出しています。 AWRスコアが高いほど、より巧妙で粘り強く、情報に基づいた攻撃者でなければシステムを突破できません。 複雑な攻撃シナリオに基づくこの測定値は、次の3つの重要な項目にわたって算出されます。

  • 必要な高度さ – AIを突破するには、攻撃者にどの程度の工夫が求められますか? システムは高度でカスタマイズされた手口にも耐えられますか、それとも単純でよくある攻撃に脆弱ですか?
  • 防御の継続力 –長期にわたる適応型攻撃に対し、AIシステムはどれだけ安全を保てますか? 数回の攻撃で崩れるのか、それともしつこく変化する攻撃に耐え抜けますか?
  • 対諜報活動 – AIが知らず知らずのうちに攻撃者を育てていませんか? この指標は、攻撃失敗時に重要情報が漏れ、フィルターの特徴を明かしてしまったり、将来の攻撃手法を知らずに教えてしまったりしていないかを確認します。

最新の動向は何でしょうか?

F5 Labsのチームが9月のテストで確認した最新動向について詳しい分析を行っています。 増加する手法や脆弱性、攻撃について深く知りたいなら、毎月チェックしてAIセキュリティの最新トレンドを追い続けてください。

AIモデルの変化に遅れず対応する

AIの攻撃対象範囲は進化し続けます。F5は組織がAIセキュリティの変化に的確に対応できるよう、必要な洞察を提供して支援します。 新技術には常に一定のリスクが伴うため、AIも例外ではありません。 包括的なAIセキュリティの第一歩はリスクの所在を把握することです。CASIリーダーボードはAIモデルの状況変化に応じて、その理解を深め続けます。

さらに詳しい情報をご希望ですか? 私たちがベースモデルの評価で使うのと同じエージェント型レッドチーミングを、あなたのAI環境に合わせて適用・調整し、F5 AI Red Teamでより深い洞察を引き出します。