AI 推論タスクがより高速に実行されるだけでなく、セットアップとメンテナンスに必要な労力が最小限で、より安全に実行される世界を想像してみてください。 信じられないほど良い話に聞こえますか? 最新の Intel OpenVINO ベースのソリューションは、Intel の E2100「Dayton Peak」インフラストラクチャ プロセッシング ユニット (IPU)、F5 NGINX Plus、Red Hat OpenShift を統合することでこれを実現します。 これは、AI ワークロードを安全かつ効率的に拡張しながら、インストールと運用を合理化したいと考えている開発者や企業向けに設計された画期的な構成です。
このパズルのすべてのピースがどのように組み合わさるのか、そしてこの統合が AI 推論のセキュリティとスケーラビリティにとってなぜ画期的なのかを詳しく説明します。
このセットアップの本質は、重要なインフラストラクチャ タスクを Intel IPU にオフロードすることで AI 推論を強化するように構築されています。 これにより、Intel OpenVINO 推論サーバーを実行するホスト システムは、そのリソースを本当に重要なこと、つまり高速かつ正確な推論結果の提供に専念できるようになります。 F5 NGINX Plus と Red Hat の Enterprise Linux OS、OpenShift、MicroShift を組み合わせることで、このシステムはパフォーマンス、スケーラビリティ、セキュリティの独自のバランスを実現します。
コアとなるワークフローは次のとおりです。暗号化されたトラフィックは AI クライアントから、Intel IPU に直接デプロイされている NGINX Plus に流れます。 NGINX Plus はトラフィック プロキシとして機能し、データを復号化し、PCIe バスを介して Dell R760 システムでホストされている Intel OpenVINO 推論サーバーに安全にルーティングします。 その後、結果は NGINX Plus を介して送り返され、AI クライアントに配信されます。
ワークフロー自体も魅力的ですが、アーキテクチャ上の利点によってさらに価値が高まります。 このソリューションは、インフラストラクチャ タスクを IPU に移行することで、パフォーマンス上の利点と管理者の責任の明確な分割の両方を実現します。
NGINX Plus を Intel IPU に導入する重要な利点の 1 つは、ホスト システムの CPU からインフラストラクチャ タスクをオフロードできることです。 トラフィック ルーティング、復号化、アクセス制御など、リソースを大量に消費する可能性のある処理はすべて IPU で処理されます。 これは、ホスト CPU が追加の Intel OpenVINO 推論モデルの実行やリソースを大量に消費する AI プロセスの処理など、アプリケーション固有のワークロードに集中するために使用できるサイクルが大幅に増えることを意味します。
実際のシナリオでは、これは高価で高性能なサーバー ハードウェアをより有効に活用することを意味します。 ホスト CPU は、バックグラウンド インフラストラクチャ タスクによって負荷がかからず、最も重要なワークロードに対してフル稼働できます。
このソリューションのもう 1 つの独自の利点は、インフラストラクチャ サービスとapplicationワークロードの分離です。 NGINX Plus、ネットワーク管理、アクセス制御などのすべてのインフラストラクチャ タスクを Intel IPU 上で実行し、Intel OpenVINO 推論サーバーをホスト上に維持することで、コントロール プレーンの責任を明確に区別できるようになりました。
Intel OpenVINOapplication管理者は、推論ワークロードの管理、AI モデルの導入とスケーリング、アプリケーション レベルのパフォーマンスの最適化を担当します。 インフラストラクチャ管理者は、Intel IPU 環境を監視し、ルーティングを管理し、アクセス制御 (FXP ルール経由) を実施し、NGINX Plus インスタンスを構成することでインフラストラクチャ サービスが安全かつ効率的に動作することを保証します。
この職務の分離により、曖昧さが排除され、組織のコラボレーションが強化され、各管理者がそれぞれの専門分野にしっかりと集中できるようになります。
これらの利点を組み合わせることで、このソリューションは実用的になるだけでなく、リソース使用率とセキュリティを最高レベルに保ちながら、エンタープライズ AI ワークフローを拡張するのに効率的になります。
このシステムの際立った特徴の 1 つは、Red Hat MicroShift と OpenShift DPU Operator を活用して、構成とスケーリングを実質的に簡単に行えることです。 正直なところ、このような自動化が実際に動作しているのを見ると、魔法のように感じられます。 詳しく説明しましょう:
クラスターは2つあります。 ホストシステム上で実行される OpenShift クラスターがあります。 具体的には、これは OpenShift ワーカー ノードであり、Dell R760 上で実行されます。 2 番目のクラスターは MicroShift クラスターです。 これは、Intel IPU の ARM コアに展開されています。 OpenShift のこの軽量バージョンは、完全な Kubernetes 環境のオーバーヘッドなしでコンテナの柔軟性を提供します。
これらのクラスターは、舞台裏で重い処理を実行する DPU オペレーターを介して連携します。 これらは相互に通信し、アクティブなポッドとネットワークに関するデータを交換します。 この接続は、セキュリティとトラフィック ルールを動的に管理する上で特に重要です。
開発者の作業を本当に楽にしてくれるのは、動的なルールの作成です。 以前は、FXP ルール (PCIe トラフィックのアクセス制御を管理するために使用) を設定するには、手作業と P4 プログラミングの知識が必要でした。 今、あなたがしなければならないのは、ワークロードをデプロイすることだけです。オペレーターがすべてを自動的に処理します。
オペレーターは、適切にタグ付けされた OpenVINO 推論ポッドが展開されるたびに、新しい FXP ルールを動的に作成します。 これらの FXP ルールにより、PCIe バスを介した通信が可能になり、ワークロードが拡大または縮小すると、システムはこれらのアクセス ルールを自動的に調整し、構成を推測する必要がなくなります。
このレベルの自動化により、開発者からシステム管理者まで誰もが、インフラストラクチャ構成の細かい部分に煩わされることなく AI ワークロードに集中できるようになります。
それでは、AI 推論のためのこのシステム全体がどのように動作するのか、詳しく見ていきましょう。 Intel OpenVINO ディープラーニング デプロイメント ツールキットを使用して、画像内の動物種を認識する例を見てみましょう。 ワークフローの手順は次のとおりです。
まず、暗号化された画像データが AI クライアントから GRPCS API 呼び出しを介して送信されます。 Intel IPU 上で実行される NGINX Plus は、データを復号化し、トラフィック プロキシとして機能します。 このトラフィックは、PCIe バスを経由して、Dell R760 でホストされている Intel OpenVINO 推論サーバーに安全に流れます。 Intel OpenVINO 推論サーバーは、ResNet AI モデルを使用して画像を処理し、各写真の種を判別します。 たとえば、「これはゴールデン レトリバーです」または「あれはトラ猫です」と推測する場合があります。 結果は同じ経路(NGINX Plus を経由してクライアントへ)で送り返されます。
システムは、複数の AI クライアントが同時に画像のバッチ処理を実行できるように設定できます。 複数のクライアントがループで推論リクエストを実行している場合でも、システムは安全でシームレスかつ応答性の高い状態を維持します。
このシステムの主な利点の 1 つであるセキュリティについて説明しましょう。 Intel IPU はトラフィックを処理するだけでなく、インフラストラクチャとホスト上で実行されている推論ワークロード間の通信を積極的に保護します。
仕組みは以下のとおりです: IPU は FXP ルールを使用して、PCIe インターフェイス全体のトラフィックを制御します。 動的に生成されたルール (DPU オペレーターによって管理) によって承認されたトラフィックのみが通過を許可されます。 これにより、ホスト システムへの不正アクセスをブロックしながら、安全な通信が確保されます。 このような階層化されたセキュリティは、特に AI パイプラインを通じて機密データを処理する企業にとって、リスクを軽減するのに役立ちます。
私にとって、このソリューションの魅力は、パフォーマンス、自動化、セキュリティの完璧な融合にあります。 推論ワークロードをホストマシンでホストしながら、インフラストラクチャ管理を IPU 上で分離することで、Intel、Red Hat、F5 は効率的かつ安全なセットアップを実現しました。
この構成がゲームチェンジャーとなる理由は次のとおりです。
この Intel OpenVINO ベースのソリューションは、ハードウェアとソフトウェアを、簡単に組み合わせることができます。 Intel の E2100 IPU、Red Hat OpenShift、F5 NGINX Plus は、セキュリティとスケーラビリティを向上させながら複雑な AI 推論パイプラインを簡素化する方法を示すクラス最高の例を提供します。
このソリューションは、開発者、インフラストラクチャ アーキテクト、企業の意思決定者など、誰にとっても、最新のコンテナ化された環境で AI ワークロードを管理するための実用的な青写真を提供します。 ご興味がおありでしたら、Intel、F5、または Red Hat にお気軽にお問い合わせいただき、この構成がワークフローにどのように適合するかをご確認ください。
この技術がどのように進化していくのかを見るのは刺激的で、私自身も次のイノベーションが待ちきれません。 詳細については、 LinkedIn のデモ ビデオをご覧ください。