ブログ

AI ファクトリーにおけるネットワーク セグメンテーションの重要性

ジョン・グルーバー サムネイル
ジョン・グルーバー
2024年12月31日公開

長年にわたり、ネットワーク セグメンテーションは、脅威の分離、サービス品質の差別化、インシデント対応と分析、コンプライアンス監査、その他多くの重要な相互運用性機能を促進するための要となってきました。 しかし、ゼロトラスト原則を称賛し、急いで AI を導入する中で、現代のサイバーセキュリティとサービス運用の基盤として機能するネットワーク インフラストラクチャのこの中核要素を無視してはいないでしょうか?

以前の AI ファクトリー シリーズでは、 AI ファクトリーを、大容量で高性能なトレーニングと推論の要件を満たす大規模なストレージ、ネットワーク、コンピューティングへの投資と定義しました。 この投資収益を実現するために、AI ファクトリーでは、このトレーニングと推論を実行するために、価値の高いグラフィックス プロセッシング ユニット (GPU) とコンピューティングの使用を動的にスケジュールします。 GPU をスケジュールするには、AI クラスターごとに AI サービスの複数の「テナント」を設計する必要があります。 これにより、多くの運用チームが手遅れになるまで気付かない問題が発生します。

AI ファクトリー クラスター リソースをネットワーク セグメンテーションに合わせる

AI クラスター内では、テナント コンテキストを使用してリソースを論理的にセグメント化できるため、テナント クォータ、リソース消費制限、ホスト システムのセキュリティ、および管理ロールベースのアクセス制御 (RBAC) が可能になります。 ただし、テナント コンテキストは、AI ファクトリー ネットワークの残りの部分との AI クラスター トラフィックの入出力を提供する基本ネットワーク サービスでは公開されません。 データセンターのサイバーセキュリティの基盤となるこのコンテキストがなければ、ネットワークのセグメンテーションは意味をなさないものになります。 必要なテナント コンテキストを公開する一般的な方法では、AI ファクトリーから高価値のコンピューティング能力が大幅に奪われるか、サービスのレイテンシ、帯域幅、または同時実行性に必要な制限を下回るネットワーク パスが遅くなります。  私たちは、価値の高い AI ファクトリー リソースを効率的に活用することと、テナントをネットワークに適切に統合することの間で誤った選択に直面しています。

パブリック クラウド インフラストラクチャでは、オーケストレーションされたマルチテナント ネットワーク設計がクラウド リージョン内のすべてのサービスの基盤となり、仮想プライベート クラウド (VPC) を使用して実装されます。 この仮想化されたネットワークのセグメンテーションは、セキュリティとリソース計測の鍵となります。 パブリック クラウド プロバイダーは、ネットワーク ソフトウェア開発者のチームと、SmartNIC やデータ処理ユニット(DPU) などの特殊なネットワーク ハードウェアを使用してこの機能を維持します。 パブリック クラウドの AI ファクトリー クラスターは、基盤となるインフラストラクチャ VPC ネットワーク オーケストレーションを活用するように設計されています。 VPC を維持するためのコストはかなり高額ですが、パブリック クラウド ビジネス モデルの中心となります。  

次のような疑問が生じます。 組織は、パブリッククラウド プロバイダと同レベルの投資をすることなく、AI ファクトリーへの投資を最大限に活用し、GPU とコンピューティングを動的にスケジュールするにはどうすればよいでしょうか。

この道のりにおける業界の最初の目的地は、サーバー仮想化を使用して仮想マシン (VM) を作成することでした。 VM はハードウェア パススルーを利用して、セグメント化されたデータ センター ネットワークに接続します。 すべての仮想マシンを同じ VLAN に配置するだけで、単一の AI クラスター内の単一のテナントのみに関係する場合は、通常どおり操作を続行できます。

GPU ベンダーは GPU デバイスをコアとメモリのセットに細分化し、特定の仮想マシンに割り当てる方法をサポートしているため、VM は GPU のセグメント化にも対処できます。 ただし、GPU デバイスのセグメント化は動的ではなく、VM の再起動が必要です。 さらに、この設計では、多数のテナントにわたって計測できる GPU リソースのプールを作成する機能が制限されます。 これらはこのソリューションの重大な欠点です。

ネットワーク セグメンテーションをマルチテナント AI ファクトリー クラスターと連携させる

AI ファクトリー クラスターが 1 つのテナントにサービスを提供できなくなったらどうなるでしょうか? 問題はデータセンターに移ります。 AI ファクトリー クラスターでは、デフォルトでは、データ センターに出力されるすべてのネットワーク トラフィックのソース ネットワーク アドレスが、ネットワーク要求を発行するコンテナー化されたワークロードが実行している個々のクラスター ノードの IP アドレスに変換 (SNAT) され、実際のソースが効果的にマスクされます。 トラフィックは、そのノードが展開されたネットワーク セグメントから送信されます。 マルチテナント クラスターの場合、これはテナントのコンテキストが失われ、複数のテナントからの出力トラフィックが混在することになり、整理、保護、トラブルシューティング、監査が不可能になります。

ノードグレースープ図

デフォルトでは、クラスター テナント コンテキストは出力時に失われます。

この問題は、入力トラフィックが含まれる場合にさらに深刻になります。 入力トラフィックは、すでにセグメント化されたデータセンターから送信されるため、管理が容易になる可能性がありますが、単一のテナントの入力トラフィックをその出力トラフィックとどのように関連付けるのでしょうか。 その答えは、外部データを取得して外部サービスを利用するために頻繁に通信する検索拡張生成 ( RAG ) とエージェント サービスを中心に展開されます。 これは、プラットフォーム エンジニアと NetOps が顧客の問題を特定したり、セキュリティ監査に合格しようとしたりする、チーム間の取り組みになります。  

企業は、「なぜソフトウェア定義ネットワーク (SDN) オーバーレイ テクノロジーを使用して、ハイパースケーラーのように VPC ネットワークを構築できないのか」と疑問に思うかもしれません。 これは確かに可能ですが、既存のデータセンター インフラストラクチャよりも SDN VPC ネットワークを維持するためのコストが高くなります。 レイヤー 2 (VxLAN など) のセグメンテーションが必要な場合は、ラック上部のスイッチングによるトンネルのオーケストレーションと、ネットワーク セグメンテーションに合わせたそれらのスイッチのプロビジョニングが問題になります。 このため、ハイパースケーラーは SmartNIC を選択し、ホスト間レベルのオーケストレーションに移行し、データセンター ネットワークは高速かつ非インテリジェントなものになりました。

ほとんどの組織には、ネットワーク プログラミングの才能や、このような複雑なホスト レベルのオーケストレーションを実行する意欲がないか、サービス品質に必要なバックボーン ネットワークの可視性を失うことができないだけです。 これらの問題に対するレイヤー 3 (IP など) のルーティング ソリューションの提案により、ネットワーク チームは、すべての AI クラスター ノードをデータ センターへの動的ルーティング (BGP) ピアにして、複数のルート リフレクタを使用して基本的な IP サブネット テナンシーを提供するという道を歩むようになりました。 これによっても、オペレーターは非常に複雑なルーティングの問題とセキュリティ監査にさらされ、地域全体の停止が発生しました。

AI ファクトリー向けのクラスター対応オーケストレーションされたネットワーク セグメンテーション

AI 工場では、帯域幅と同時実行性の両方でスケーラブルな、機能が豊富でプログラム可能、安全で低遅延のネットワーク ソリューションを計画する必要があります。 レイヤー 2 (VLAN、VxLAN など) およびレイヤー 3 (サブネット、IPSEC インターフェイスなど) のテナント コンテキストは、クラスター内から AI ファクトリー ネットワークに提示される必要があります。 観測可能性メトリック、ログ、デバッグ ツールは NetOps で利用できる必要があります。

従来、これらのapplicationテナンシーおよび可視性ソリューションの多くは、 F5 BIG-IPによって提供されています。 F5 BIG-IP Container Ingress Services (CIS) は、Kubernetes サービスを動的に検出し、それらを仮想サーバーとしてデータセンターに公開します。これは、BIG-IP 管理者が物理サーバーと仮想マシンを構成する際によく使用する構成オブジェクトです。 BIG-IP はソリューションに求められる要件の多くを提供しますが、セグメンテーションを維持するために必要な、AI クラスターから AI ファクトリー ネットワークへの出力トラフィックを管理しません。

この問題に対処するため、当社は次世代プラットフォーム BIG-IP Next 上に構築されたマルチテナント コンピューティング クラスター向けソリューションであるF5 BIG-IP Next for Kubernetesを設計しました。

ノードグレースープ図

BIG-IP Next for Kubernetes を使用すると、NetOps はクラスター テナントをネットワーク セグメントに関連付けることができます。

BIG-IP Next for Kubernetes は、Kubernetes コントロール プレーンを通じて完全に管理され、Kubernetes 管理認証、宣言されたすべてのリソースの RBAC をサポートし、名前空間を通じて Kubernetes テナンシーを認識して、入力トラフィックと出力トラフィックの両方に必要なネットワーク セグメンテーションをサポートします。 これは、AI ファクトリーのようなオーケストレーション重視のアーキテクチャにとって重要です。

BIG-IP Next for Kubernetes は、NetOps が Kubernetes 名前空間とネットワーク セグメント間のマッピングを宣言するための簡単な方法を提供します。 AI ファクトリー ネットワークと BIG-IP Next インスタンス間の動的ルート ピアリングでは、使い慣れたルート構成構文が使用されます。 NetOps チームには、クラスターの入口と出口のライブ ネットワーク ストリームを安全にトラブルシューティングできる独自の機能があります。 SecOps チームは、クラスター テナントごとに、イングレスおよびエグレス ファイアウォール アクセス制御リスト (ACL)、分散型サービス拒否 (DDoS)、および IPS 機能を利用できます。

プラットフォーム エンジニアリング チームにとって、BIG-IP Next for Kubernetes は、データの入出力トラフィック処理、ソース NAT、ファイアウォールなどのネットワーク機能をオフロードすることで、コンピューティング リソースの負担を軽減します。 これにより、サービスの可用性と効率性を維持しながら、運用コストを削減できます。

BIG-IP Next for Kubernetes は、NetOps、プラットフォーム エンジニアリング、DevOps、MLOps の特定の組織の役割向けにモデル化された最初のコミュニティ イングレス API である Kubernetes Gateway API もサポートしています。 BIG-IP Next for Kubernetes は、ゲートウェイ API を通じて、一般的なレイヤー 4 ポートベースまたはレイヤー 7 HTTP(S) ルート イングレス サービスを DevOps/MLOps スイート (TCPRoute、UDPRoute、HTTPRoute、TLSRoute、GRPCRoute) に拡張します。これらはすべて、主要な AI フレームワークの同じ CI/CD 自動化を通じて制御されます。

管理の観点から見ると、BIG-IP Next for Kubernetes は、Kubernetes API 宣言を通じて NetOps、SecOps、プラットフォーム エンジニアリング、DevOps、MLOps をすべて効果的に連携させます。 これは、ネットワーク セグメンテーションをサポートしながら、Kubernetes レンズを通して BIG-IP に期待されるすべての機能を提供します。

DPU の台頭

データ処理ユニット (DPU) は、AI 工場内で急速に普及しています。 AI ファクトリー シリーズの以前のブログ投稿で定義されているように、DPU は、ネットワーク ライン レートでのハードウェア アクセラレーションを介して膨大なデータの移動と処理を処理するように設計されたプログラム可能なプロセッサです。 F5 の製品イノベーションと NVIDIA とのコラボレーションを通じて、NVIDIA の DOCA API を使用して NVIDIA BlueField-3 DPU に展開することで、ネットワーク セグメンテーションとセキュリティ機能をサポートしながら、イングレスおよびエグレス トラフィックのデータ フローをオフロードする BIG-IP Next for Kubernetes をリリースしました。 これにより、AI クラスターに「データが供給される」ことが保証され、AI ファクトリーへの投資が最大化されます。

F5 搭載の AI ファクトリー

AI 工場に投資する場合、インフラストラクチャが最適化され、効率的で、拡張可能であることを保証することは必須です。 NVIDIA BlueField-3 DPU に導入された F5 BIG-IP Next for Kubernetes は、動的な GPU およびコンピューティング スケジューリングに必要なネットワーク セグメンテーションを提供するとともに、高性能なスケーラビリティを実現し、AI 投資収益を最大化します。 詳細については、 F5 に問い合わせて、F5 のアカウント マネージャー、ソリューション エンジニア、またはアーキテクトにお問い合わせください。