ブログ

F5 NGINX Plus は AI クラスターをどのように支えるか

リアム・クリリー サムネイル
リアム・クリリー
2025年7月3日発行

過去10年間、NGINX Open Sourceは世界で最も広く使われているWebサーバーの一つであり、市場シェアではトップクラスのアプリケーション デリバリソリューションです。 小さなスタートアップや学術研究プロジェクトから、世界最大級のWebアプリケーションに至るまで、負荷分散やリバースプロキシとして支えています。

アプリケーション配信の定番となったように、NGINXはAIアプリケーションのトレーニングと提供の重要な要所として静かにその役割を果たしています。 Intel OpenVINO Model Server、NVIDIA Morpheus、MetaのvLLM、NVIDIA Tritonなど主要なAIフレームワーク、ツールキット、ライブラリ、プラットフォームは、F5 NGINX Plus(およびNGINXオープンソース)をネイティブ設定として備え、gRPC/HTTPプロキシング、SSL/TLS終了、ヘルスチェックを考慮した負荷分散、動的な再構成を即座に対応できます。 Kubernetesクラスター上で展開される多くのAIサービスやソリューションが、F5 NGINX Ingress Controllerを、モデルのトレーニングや推論でのAIクラスターへの入出力トラフィック管理の推奨先として選んでいます。 その実態を探れば、AIが関わるほぼあらゆる場所でNGINXが動いていることが分かるでしょう。

幅広いAIの活用シーンにおいて、NGINXはAIスタックの重要な役割を担っています。 基盤モデルの調整からLLMのトークン出力ストリーミング、リアルタイム異常検出エンドポイントへのリクエストルーティングまで、NGINXがすでにデータパスに組み込まれていることでしょう。

AIチームがNGINX Plusを採用する理由

  • KubernetesネイティブIngress: 現在、ほとんどのAIプラットフォームはKubernetes上で稼働しており、NGINXはRun:ai、KServe、Ray Serveなどのツールでデフォルトまたは優先されるingressとして利用されています。 AIアプリがハイブリッド、マルチクラウド、エッジ環境へ拡大する中、NGINX Gateway Fabricは軽量な設計でGateway APIをKubernetesネイティブに実装し、複雑なメッシュを増やさずにルーティングや再試行、可観測性の制御を細かく行えるため、AIチームに高度なトラフィック管理を提供します。
  • 大規模な動的ロールアウト: AI推論ワークロードでは、重要でGPU資源を多く使うセッションが多く、精密なバージョン管理とダウンタイムゼロが求められます。 NGINXは動的な設定の再読み込み、加重トラフィック分割、アクティブなヘルスチェックを提供し、稼働中のセッションやGPUキューを圧迫せずに新バージョンの安全な展開を可能にします。
  • 本番環境対応のAPI処理: Triton、vLLM、OpenVINOなどのモデルサーバーは、高速かつ構造化された通信のためにgRPCまたはHTTP/2を利用しています。 NGINXは、これらのプロトコルに対して成熟した高性能サポートを提供し、接続の再利用、セッションのスティッキー性、TLS終端、リクエストのバッファリングも実現しています。これらはバーストや長時間にわたるAI推論トラフィックを効果的に処理する上で欠かせません。
  • 運用制御: NGINX Plus は、RESTfulな設定更新、ライブアップストリーム管理、そしてエンタープライズクラスのWebアプリケーションファイアウォール(WAF)といった高度な機能を提供します。 複数のクラスターにわたり数十から数百のNGINXインスタンスを管理するチームには、F5 NGINX Oneが構成、稼働状況、セキュリティポリシーを一元管理できるコンソールを提供します。アクセス権やリスクプロファイルが異なる様々なモデルやAIユースケースを扱うチームに最適なソリューションです。
  • F5 AI Gateway: AI ワークロード専用に設計されたAI Gatewayは、セキュリティを第一に考えたアプローチでNGINXの機能を拡張します。 プロンプトインジェクションや有害な出力を防ぐカスタマイズ可能な保護機能に加え、レート制限や利用クォータを備え、GPUのリソース制約がある環境でのスクレイピングやフラッディング、過剰なクエリ実行を防ぎます。 推論ルートごとに異なるセキュリティルールを適用可能で、例えば生成モデルには厳格なポリシーを採用し、ベクターAPIにはより柔軟な制御を設定できます。 すべてのトラフィックをトークン単位やリクエスト単位でログに記録し、可観測性を高めるパイプラインに連携、監査要件にも対応します。

主要なAIフレームワークやツール、マネージドサービスがNGINXと連携しています

NGINX は、多くの主要な AIOps スタック、ツール、マネージドサービスで標準の Ingress として広く採用されています。

AIフレームワーク

NGINXの活用方法 

実際の利点 

Intel OpenVINO モデルサーブ F5とIntelによるデモで、NGINX Plusの背後にモデルシャードを展開します(YouTube 1 つのゲートウェイから CPU、GPU、VPU のいずれかのバックエンドにルーティングできます。
NVIDIA Triton Helm チャートは、gRPC アクセス用に NGINX Plus Ingressを備えたTriton をインストールします ( GitHub ) HTTP/2の多重化によって GPUの利用率を常に高く保ちます。
NVIDIA Morpheus  「How I Did It」ガイドでは、NGINX Plus Ingressを使ってMorpheusを安全に運用する方法をご紹介します(F5コミュニティ リアルタイムのセキュリティ推論の前面でTLSオフロードと適応型WAFを活用します。  
NVIDIA(XLIO) NVIDIA Accelerated IO(XLIO)を活用したNGINX導入ガイド(docs.nvidia.com OpenSSLサポート付きのビルド手順とサンプルファイルを提供し、TLSオフロードとパフォーマンスチューニングを強化しました。  
Meta vLLM  公式ドキュメントでは、NGINXを使って複数のvLLMインスタンスを効果的に負荷分散する方法をご案内しています。 テキスト生成エンドポイントを素早く水平スケールできます。

MLOpsチームがNGINX製品を導入できるのは、マイクロサービスやAPIを管理するチームが採用しているのと同じ理由です。これらはAI展開に不可欠な要素で、NGINXは軽量でモジュール式、持ち運びが簡単で、多様な環境で大量のトークンを効率的に処理します。 AI開発者や機械学習エンジニアは、共通のAIレシピを立ち上げる過程で、プラットフォームまたはMLOpsチームが設定したコンテナイメージを利用してNGINXを展開できます。 NGINXは、主要なプラットフォームとプロセッサアーキテクチャの多くでハードウェアアクセラレーションと連携します。

NGINXをデフォルトオプションに挙げるAIコンポーネントは、低レベルのGPUスケジューリングから高レベルのモデルサービング、導入オーケストレーション、企業向けガバナンスに至るまで、AIインフラ全体にわたります。 これらは、推論エンドポイントへのトラフィックを安全にルーティングし、スケーラブルで効率的なモデル配信を実現し、マルチテナントクラスタのアクセス管理を行い、バージョン管理や監査、規制遵守に関する運用ポリシーを確実に適用するなど、NGINXが幅広い用途を支えていることを示しています。

  • KServe: 導入ガイドは推論サービスのリクエスト ルーティングに使う既存のNGINX Ingress Controllerドメインを前提としています。
  • Ray Serve: ドキュメントには、NGINX Ingress Controller を設定してダッシュボードやモデルのエンドポイントを公開する手順が記載されています。
  • セルドン コア v2: 本番環境の導入ガイドでは、カナリアやシャドウ トラフィックを含むシナリオで、Helmを使ってNGINX Ingress Controllerをセットアップする方法を解説します。
  • Run:ai: 前提条件として、NGINXをマルチテナントGPU共有Kubernetesクラスターの信頼できるイングレスコントローラーに指定しています。
  • AWS SageMaker: ドキュメントでは、NGINX と Gunicorn を使ってカスタム推論コンテナを前面に立てる例を紹介しています。
  • Azure AKS: Microsoft はクラスター内のイングレス トラフィック向けに、標準で使えるマネージド NGINX Ingress Controller を提供しています。
  • DataRobot: インストール手順では、EKS上でポータブル予測サーバーへのパスベースのリクエストルーティングに、NGINX Ingress Controller(v4.0.0以上)の使用を推奨します。

NGINX がスムーズに MLOps へ導きます

これらのプラットフォームとツールは、低レベルのGPUスケジューリングから、高レベルのモデル提供、導入のオーケストレーション、エンタープライズ対応のガバナンスまで、AIインフラの全領域を網羅しています。 NGINXは推論エンドポイントへのトラフィックを安全にルーティングし、スケーラブルかつ効率的なモデルの提供を可能にし、マルチテナントクラスタのアクセス管理をしっかり行いながら、バージョン管理、監査、規制コンプライアンスの運用ポリシーも適切に実施して、幅広いユースケースを支えています。 ラインナップは今も広がっており、次世代のAIネイティブ企業がNGINXで何を創り出すのか、私たちはとても楽しみにしています。

AIのスケールアップをF5 NGINX Oneがサポートします。