ビジネスリーダーは、AI を最優先にする必要があることを認識しています。 しかし、それは言うは易く行うは難しです。 AI は複雑で、高価で、リスクを伴う場合があります。 そして、テクノロジーとエコシステムはどちらも急速に進化しています。
まず、画一的なアプローチからの明確な転換が起こっています。 予測 AI/ML、生成 AI、そして現在ではエージェント AI が、特定の業界やapplicationsに適応されつつあります。 専用の AI モデルが増加するにつれて、AI の状況はますます多様化しています。
AIapplicationsには、パフォーマンス、コスト、エネルギー効率が最適化されているだけでなく、急速に進化する AI モデル、applications、エージェントのニーズにも対応できるカスタマイズされたインフラストラクチャが必要であることは明らかです。 その好例がモデルコンテキストプロトコル (MCP) です。これは、ほんの数か月前には存在すらしなかった強力なイノベーションです。
組織が生成 AI と AI エージェントの活用を競うなか、専用のデータ センターを構築する組織も現れています。 他の企業は、複数の大規模言語モデル (LLM) をサポートするようにカスタマイズされたクラウド規模のインフラストラクチャを導入する専門プロバイダーに目を向けています。 AI ファクトリーやネオクラウドと呼ばれることが多いこれらのプラットフォームは、高速コンピューティング、ネットワーク、ストレージに多額の投資を行っており、すべて AI ワークロードの強力なパフォーマンスに対応し、需要を拡大することを目的として構築されています。
主権的でスケーラブルな AI および LLM 推論インフラストラクチャを構築するには、次の 4 つの主要な課題に取り組む必要があります。
F5はNVIDIAと連携し、AIファクトリーとクラウド規模のAIインフラストラクチャが現代のAIのニーズに対応できるよう支援しています。本日、 NVIDIA GTC Paris 2025において、 NVIDIA BlueField-3 DPUに導入されたF5 BIG-IP Next for Kubernetesの新機能を発表し、イノベーションの新たなレベルを実現します。 これは、GTC サンノゼ 2025 で導入された強化されたパフォーマンス、マルチテナント、セキュリティに基づいています。 F5application配信およびセキュリティ プラットフォームの一部である F5 BIG-IP Next for Kubernetes は、データの移動と処理専用に設計された強力なプログラム可能なプロセッサであるNVIDIA BlueField-3上でネイティブに実行されます。
DPU は、ネットワーク処理、ストレージ管理、セキュリティ操作 (暗号化やトラフィック監視など) などのタスクをオフロードすることで、貴重な CPU サイクルと GPU リソースを解放し、AI のトレーニングと推論に集中できるようにします。 これにより、ボトルネックが削減され、パフォーマンスが向上し、レイテンシーが改善され、AI ファクトリーがより迅速かつ効率的に動作して、より多くのトークンを配信できるようになります。
DPU はネットワーク インターフェイス カード上に配置されており、サーバー間および外部の顧客/ユーザー/エージェントと AI ファクトリー間のデータ フローを管理し、大規模なネットワークとセキュリティを調整します。 NVIDIA BlueField-3 DPU 上に導入された F5 BIG-IP Next for Kubernetes は 4 月に一般提供されました。
LLM はここ数か月で急速に進歩し、現在では幅広い規模、コスト、ドメイン固有の専門知識を提供しています。 各プロンプトに適切なモデルを選択すると、応答と規制遵守が向上するだけでなく、リソースの消費、コスト、および待ち時間も最適化されます。
今日のNVIDIA NIMマイクロサービスの統合により、組織は AI プロンプト要求を最も適した LLM または各タスクに最適なモデルにインテリジェントにルーティングできるようになりました。 たとえば、軽量でエネルギー効率の高いモデルは単純なリクエストを処理できますが、より複雑または大規模で特殊なプロンプトは、より大規模なモデルまたはドメイン固有のモデルに送信されます。
このアプローチにより、AI ファクトリーはコンピューティング リソースをより効率的に使用できるようになり、推論コストを最大 60% 削減できます。 より優れた対応、より迅速な対応、より低コストを実現できることは、モデルプロバイダーとモデルユーザーの両方にとってメリットとなります。
NVIDIA は、GPU に加えて、AI 推論における主要な課題に取り組むためにソフトウェア レベルでも革新を続けています。 NVIDIA ダイナモ NVIDIA NIM に含まれる KV キャッシュはその良い例です。 NVIDIA Dynamo は、推論のための分散型サービスを導入し、GPU コンピューティングを多用するコンテキスト理解 (事前入力) と、メモリ帯域幅を多用する応答生成 (デコード) を、異なる GPU クラスター間で分離します。 これにより、GPU の使用率が向上し、スケジュール、ルーティング、メモリ管理を効率的に処理することで、データセンター間のスケーリングが簡素化されます。 KV キャッシュは、モデル コンテキストの保存およびアクセス方法を最適化します。 頻繁に使用されるデータを GPU メモリに保持し、残りを CPU またはストレージにオフロードすることで、メモリのボトルネックが緩和され、追加のハードウェアを必要とせずに、より大きなモデルやより多くのユーザーをサポートできるようになります。
BIG-IP Next for Kubernetes の強力な新機能は、KV キャッシュのサポートです。これにより、AI 推論が高速化されるとともに、時間とエネルギーの使用が削減されます。 GPU メモリ使用量やその他の基準などのいくつかの明示的なメトリックに基づく NVIDIA Dynamo のインテリジェント ルーティングと組み合わせることで、最初のトークン生成時間 (TTFT) が大幅に短縮され、トークン生成が増加し、最終的にはより迅速なスループットが可能になります。 DeepSeek は容量において 10 倍から 30 倍の向上を示しました。
お客様は、F5 のプログラマビリティを使用して、 F5 BIG-IP の機能を拡張および適応させ、非常に高いパフォーマンスで厳密かつ独自のニーズを満たすことができます。
ほとんどの組織、特に金融サービス、通信会社、複雑なレガシー システムを持つ医療会社などの大規模な組織にとって、エージェント AI は非常に魅力的です。 LLM 上に構築されたこれらの AI エージェントは、複雑なデータベース、サーバー、ツール、applicationsをナビゲートして正確な情報を取得し、新たなレベルの効率性と洞察を実現します。
2024 年 11 月に Anthropic によって導入された MCP は、AI システムが現実世界のデータ、ツール、サービスと対話する方法を変革します。 MCP サーバーは標準化されたコネクタとして機能し、AI モデルが API、データベース、ファイル システムにリアルタイムでアクセスできるようになり、AI が静的トレーニング データの制限を超えてタスクを効率的に実行できるようになります。 導入が進むにつれて、これらのサーバーには、負荷分散、強力なセキュリティ、認証、データとツールの承認、そしてシームレスな Kubernetes 統合を備えた高度なリバース プロキシが必要となり、MCP は主権 AI インフラストラクチャの重要な柱となり、エージェント AI のセキュリティ保護と有効化を実現します。
MCP サーバーの前にリバース プロキシとして導入され、NVIDIA BlueField-3 DPU 上に導入された BIG-IP Next for Kubernetes は、MCP サーバーの拡張とセキュリティ保護、リクエストの検証、データの分類、整合性とプライバシーのチェックを実行できるため、組織と LLM の両方をセキュリティの脅威とデータ漏洩から保護できます。 一方、F5 のプログラマビリティにより、AIapplicationがMCP やその他のプロトコルの要件に準拠していることを簡単に確認できるようになります。
最近の収益発表では、いくつかの大手組織が四半期ごとに生成されるトークンの数、その成長、およびそれに関連する収益を開示し始めています。 これは、パブリック クラウドで時々発生する予期しないコストを回避するために、予算のようにトークンの使用状況を追跡、管理、制御する機能に対する、お客様からの高まるニーズを反映しています。
そのため、BIG-IP Next for Kubernetes には、組織全体でトークンの消費量を測定および管理するための新しい機能が追加されました。 お客様からご要望があれば、私たちは耳を傾け、丁寧に対応いたします。
業界が AI 工場を開発し、国が独自の AI を構築するにつれて、AI エージェントが登場し、インフラストラクチャ、エコシステム、applicationsは柔軟性と適応性を備えていなければなりません。 AI を効率的に導入する組織は、より迅速に行動し、顧客へのサービスを向上させ、コストを削減できます。 しかし、この可能性を実現するには、AI はイノベーションのペースを遅らせることなく、安全で、拡張性があり、コスト効率の高いものでなければなりません。
ここで F5 が登場します。昨年 3 月に、パフォーマンス、マルチテナント、セキュリティを実現しました。 BIG-IP Next for Kubernetes により、AI のスピードに合わせて構築されるイノベーションが可能になります。
私たちの約束: 1ドルあたり、1ワットあたりのトークンが増えます。 ぜひ試してみて違いを直接確認してください。
F5 は、NVIDIA GTC Paris 2025 のゴールド スポンサーであることを誇りに思います。 ブース G27 にお越しいただき、F5application配信およびセキュリティ プラットフォームが安全で高性能な AI インフラストラクチャをどのようにサポートするかを体験し、NVIDIA との共同セッション「Secure Infrastructure by Design」にご参加ください。 信頼できる AI ファクトリーの構築、6 月 12 日木曜日午前 10 時 (中央ヨーロッパ夏時間)。
NVIDIA BlueField-3 DPU に導入された F5 BIG-IP Next for Kubernetes の詳細については、以前のブログ投稿をご覧ください。 また、必ず当社の本日の発表に関するプレスリリース。
F5 の AI への注力はこれだけにとどまりません。F5が AI アプリをあらゆる場所で保護し、配信する方法をご覧ください。