AI ファクトリーにおけるネットワークセグメンテーションの重要性

ジョン・グルーバー

2024年12月31日公開

長年にわたり、ネットワークセグメンテーションは、脅威の分離、サービス品質の差別化、インシデント対応と分析、コンプライアンス監査、その他多くの重要な相互運用性機能を促進するための要となってきました。しかし、ゼロトラスト原則を称賛し、急いで AI を導入する中で、現代のサイバーセキュリティとサービス運用の基盤として機能するネットワークインフラストラクチャのこの中核要素を無視してはいないでしょうか?

以前の AI ファクトリーシリーズでは、 AI ファクトリーを、大容量で高性能なトレーニングと推論の要件を満たす大規模なストレージ、ネットワーク、コンピューティングへの投資と定義しました。この投資収益を実現するために、AI ファクトリーでは、このトレーニングと推論を実行するために、価値の高いグラフィックスプロセッシングユニット (GPU) とコンピューティングの使用を動的にスケジュールします。 GPU をスケジュールするには、AI クラスターごとに AI サービスの複数の「テナント」を設計する必要があります。これにより、多くの運用チームが手遅れになるまで気付かない問題が発生します。

AI ファクトリークラスターリソースをネットワークセグメンテーションに合わせる

AI クラスター内では、テナントコンテキストを使用してリソースを論理的にセグメント化できるため、テナントクォータ、リソース消費制限、ホストシステムのセキュリティ、および管理ロールベースのアクセス制御 (RBAC) が可能になります。ただし、テナントコンテキストは、AI ファクトリーネットワークの残りの部分との AI クラスタートラフィックの入出力を提供する基本ネットワークサービスでは公開されません。データセンターのサイバーセキュリティの基盤となるこのコンテキストがなければ、ネットワークのセグメンテーションは意味をなさないものになります。必要なテナントコンテキストを公開する一般的な方法では、AI ファクトリーから高価値のコンピューティング能力が大幅に奪われるか、サービスのレイテンシ、帯域幅、または同時実行性に必要な制限を下回るネットワークパスが遅くなります。私たちは、価値の高い AI ファクトリーリソースを効率的に活用することと、テナントをネットワークに適切に統合することの間で誤った選択に直面しています。

パブリッククラウドインフラストラクチャでは、オーケストレーションされたマルチテナントネットワーク設計がクラウドリージョン内のすべてのサービスの基盤となり、仮想プライベートクラウド (VPC) を使用して実装されます。この仮想化されたネットワークのセグメンテーションは、セキュリティとリソース計測の鍵となります。パブリッククラウドプロバイダーは、ネットワークソフトウェア開発者のチームと、SmartNIC やデータ処理ユニット(DPU) などの特殊なネットワークハードウェアを使用してこの機能を維持します。パブリッククラウドの AI ファクトリークラスターは、基盤となるインフラストラクチャ VPC ネットワークオーケストレーションを活用するように設計されています。 VPC を維持するためのコストはかなり高額ですが、パブリッククラウドビジネスモデルの中心となります。

次のような疑問が生じます。組織は、パブリッククラウドプロバイダと同レベルの投資をすることなく、AI ファクトリーへの投資を最大限に活用し、GPU とコンピューティングを動的にスケジュールするにはどうすればよいでしょうか。

この道のりにおける業界の最初の目的地は、サーバー仮想化を使用して仮想マシン (VM) を作成することでした。 VM はハードウェアパススルーを利用して、セグメント化されたデータセンターネットワークに接続します。すべての仮想マシンを同じ VLAN に配置するだけで、単一の AI クラスター内の単一のテナントのみに関係する場合は、通常どおり操作を続行できます。

GPU ベンダーは GPU デバイスをコアとメモリのセットに細分化し、特定の仮想マシンに割り当てる方法をサポートしているため、VM は GPU のセグメント化にも対処できます。ただし、GPU デバイスのセグメント化は動的ではなく、VM の再起動が必要です。さらに、この設計では、多数のテナントにわたって計測できる GPU リソースのプールを作成する機能が制限されます。これらはこのソリューションの重大な欠点です。

ネットワークセグメンテーションをマルチテナント AI ファクトリークラスターと連携させる

AI ファクトリークラスターが 1 つのテナントにサービスを提供できなくなったらどうなるでしょうか? 問題はデータセンターに移ります。 AI ファクトリークラスターでは、デフォルトでは、データセンターに出力されるすべてのネットワークトラフィックのソースネットワークアドレスが、ネットワーク要求を発行するコンテナー化されたワークロードが実行している個々のクラスターノードの IP アドレスに変換 (SNAT) され、実際のソースが効果的にマスクされます。トラフィックは、そのノードが展開されたネットワークセグメントから送信されます。マルチテナントクラスターの場合、これはテナントのコンテキストが失われ、複数のテナントからの出力トラフィックが混在することになり、整理、保護、トラブルシューティング、監査が不可能になります。

ノードグレースープ図

デフォルトでは、クラスターテナントコンテキストは出力時に失われます。

この問題は、入力トラフィックが含まれる場合にさらに深刻になります。入力トラフィックは、すでにセグメント化されたデータセンターから送信されるため、管理が容易になる可能性がありますが、単一のテナントの入力トラフィックをその出力トラフィックとどのように関連付けるのでしょうか。その答えは、外部データを取得して外部サービスを利用するために頻繁に通信する検索拡張生成 ( RAG ) とエージェントサービスを中心に展開されます。これは、プラットフォームエンジニアと NetOps が顧客の問題を特定したり、セキュリティ監査に合格しようとしたりする、チーム間の取り組みになります。

企業は、「なぜソフトウェア定義ネットワーク (SDN) オーバーレイテクノロジーを使用して、ハイパースケーラーのように VPC ネットワークを構築できないのか」と疑問に思うかもしれません。これは確かに可能ですが、既存のデータセンターインフラストラクチャよりも SDN VPC ネットワークを維持するためのコストが高くなります。レイヤー 2 (VxLAN など) のセグメンテーションが必要な場合は、ラック上部のスイッチングによるトンネルのオーケストレーションと、ネットワークセグメンテーションに合わせたそれらのスイッチのプロビジョニングが問題になります。このため、ハイパースケーラーは SmartNIC を選択し、ホスト間レベルのオーケストレーションに移行し、データセンターネットワークは高速かつ非インテリジェントなものになりました。

ほとんどの組織には、ネットワークプログラミングの才能や、このような複雑なホストレベルのオーケストレーションを実行する意欲がないか、サービス品質に必要なバックボーンネットワークの可視性を失うことができないだけです。これらの問題に対するレイヤー 3 (IP など) のルーティングソリューションの提案により、ネットワークチームは、すべての AI クラスターノードをデータセンターへの動的ルーティング (BGP) ピアにして、複数のルートリフレクタを使用して基本的な IP サブネットテナンシーを提供するという道を歩むようになりました。これによっても、オペレーターは非常に複雑なルーティングの問題とセキュリティ監査にさらされ、地域全体の停止が発生しました。

AI ファクトリー向けのクラスター対応オーケストレーションされたネットワークセグメンテーション

AI 工場では、帯域幅と同時実行性の両方でスケーラブルな、機能が豊富でプログラム可能、安全で低遅延のネットワークソリューションを計画する必要があります。レイヤー 2 (VLAN、VxLAN など) およびレイヤー 3 (サブネット、IPSEC インターフェイスなど) のテナントコンテキストは、クラスター内から AI ファクトリーネットワークに提示される必要があります。観測可能性メトリック、ログ、デバッグツールは NetOps で利用できる必要があります。

従来、これらのapplicationテナンシーおよび可視性ソリューションの多くは、 F5 BIG-IPによって提供されています。 F5 BIG-IP Container Ingress Services (CIS) は、Kubernetes サービスを動的に検出し、それらを仮想サーバーとしてデータセンターに公開します。これは、BIG-IP 管理者が物理サーバーと仮想マシンを構成する際によく使用する構成オブジェクトです。 BIG-IP はソリューションに求められる要件の多くを提供しますが、セグメンテーションを維持するために必要な、AI クラスターから AI ファクトリーネットワークへの出力トラフィックを管理しません。

この問題に対処するため、当社は次世代プラットフォーム BIG-IP Next 上に構築されたマルチテナントコンピューティングクラスター向けソリューションであるF5 BIG-IP Next for Kubernetesを設計しました。

ノードグレースープ図

BIG-IP Next for Kubernetes を使用すると、NetOps はクラスターテナントをネットワークセグメントに関連付けることができます。

BIG-IP Next for Kubernetes は、Kubernetes コントロールプレーンを通じて完全に管理され、Kubernetes 管理認証、宣言されたすべてのリソースの RBAC をサポートし、名前空間を通じて Kubernetes テナンシーを認識して、入力トラフィックと出力トラフィックの両方に必要なネットワークセグメンテーションをサポートします。これは、AI ファクトリーのようなオーケストレーション重視のアーキテクチャにとって重要です。

BIG-IP Next for Kubernetes は、NetOps が Kubernetes 名前空間とネットワークセグメント間のマッピングを宣言するための簡単な方法を提供します。 AI ファクトリーネットワークと BIG-IP Next インスタンス間の動的ルートピアリングでは、使い慣れたルート構成構文が使用されます。 NetOps チームには、クラスターの入口と出口のライブネットワークストリームを安全にトラブルシューティングできる独自の機能があります。 SecOps チームは、クラスターテナントごとに、イングレスおよびエグレスファイアウォールアクセス制御リスト (ACL)、分散型サービス拒否 (DDoS)、および IPS 機能を利用できます。

プラットフォームエンジニアリングチームにとって、BIG-IP Next for Kubernetes は、データの入出力トラフィック処理、ソース NAT、ファイアウォールなどのネットワーク機能をオフロードすることで、コンピューティングリソースの負担を軽減します。これにより、サービスの可用性と効率性を維持しながら、運用コストを削減できます。

BIG-IP Next for Kubernetes は、NetOps、プラットフォームエンジニアリング、DevOps、MLOps の特定の組織の役割向けにモデル化された最初のコミュニティイングレス API である Kubernetes Gateway API もサポートしています。 BIG-IP Next for Kubernetes は、ゲートウェイ API を通じて、一般的なレイヤー 4 ポートベースまたはレイヤー 7 HTTP(S) ルートイングレスサービスを DevOps/MLOps スイート (TCPRoute、UDPRoute、HTTPRoute、TLSRoute、GRPCRoute) に拡張します。これらはすべて、主要な AI フレームワークの同じ CI/CD 自動化を通じて制御されます。

管理の観点から見ると、BIG-IP Next for Kubernetes は、Kubernetes API 宣言を通じて NetOps、SecOps、プラットフォームエンジニアリング、DevOps、MLOps をすべて効果的に連携させます。これは、ネットワークセグメンテーションをサポートしながら、Kubernetes レンズを通して BIG-IP に期待されるすべての機能を提供します。

DPU の台頭

データ処理ユニット (DPU) は、AI 工場内で急速に普及しています。 AI ファクトリーシリーズの以前のブログ投稿で定義されているように、DPU は、ネットワークラインレートでのハードウェアアクセラレーションを介して膨大なデータの移動と処理を処理するように設計されたプログラム可能なプロセッサです。 F5 の製品イノベーションと NVIDIA とのコラボレーションを通じて、NVIDIA の DOCA API を使用して NVIDIA BlueField-3 DPU に展開することで、ネットワークセグメンテーションとセキュリティ機能をサポートしながら、イングレスおよびエグレストラフィックのデータフローをオフロードする BIG-IP Next for Kubernetes をリリースしました。これにより、AI クラスターに「データが供給される」ことが保証され、AI ファクトリーへの投資が最大化されます。

F5 搭載の AI ファクトリー

AI 工場に投資する場合、インフラストラクチャが最適化され、効率的で、拡張可能であることを保証することは必須です。 NVIDIA BlueField-3 DPU に導入された F5 BIG-IP Next for Kubernetes は、動的な GPU およびコンピューティングスケジューリングに必要なネットワークセグメンテーションを提供するとともに、高性能なスケーラビリティを実現し、AI 投資収益を最大化します。詳細については、 F5 に問い合わせて、F5 のアカウントマネージャー、ソリューションエンジニア、またはアーキテクトにお問い合わせください。

AI ファクトリーについてさらに詳しく知りたいですか? AI ファクトリーブログシリーズ内の他の記事もご覧ください。

AI ファクトリーにおけるネットワーク セグメンテーションの重要性

AI ファクトリー クラスター リソースをネットワーク セグメンテーションに合わせる

ネットワーク セグメンテーションをマルチテナント AI ファクトリー クラスターと連携させる

AI ファクトリー向けのクラスター対応オーケストレーションされたネットワーク セグメンテーション