Imaginez un monde dans lequel les tâches d’inférence de l’IA s’exécutent non seulement plus rapidement, mais également de manière plus sécurisée, avec un minimum d’efforts requis pour la configuration et la maintenance. Cela semble trop beau pour être vrai ? La dernière solution basée sur Intel OpenVINO rend cela réalité en intégrant l'unité de traitement d'infrastructure (IPU) E2100 « Dayton Peak » d'Intel, F5 NGINX Plus et Red Hat OpenShift. Il s’agit d’une configuration révolutionnaire conçue pour les développeurs et les entreprises qui cherchent à faire évoluer les charges de travail de l’IA de manière sécurisée et efficace tout en simplifiant l’installation et le fonctionnement.
Laissez-moi vous emmener dans une plongée en profondeur dans la façon dont toutes les pièces de ce puzzle s'assemblent et pourquoi cette intégration change la donne pour la sécurité et l'évolutivité de l'inférence de l'IA.
À la base, cette configuration est conçue pour dynamiser l’inférence de l’IA en déchargeant les tâches d’infrastructure critiques sur l’IPU Intel. Cela permet au système hôte, exécutant le serveur d'inférence Intel OpenVINO, de consacrer ses ressources à ce qui compte vraiment : fournir des résultats d'inférence rapides et précis. Associé à F5 NGINX Plus et au système d’exploitation Enterprise Linux de Red Hat, OpenShift et MicroShift, le système atteint un équilibre unique entre performances, évolutivité et sécurité.
Voici le flux de travail principal : le trafic chiffré circule du client IA vers NGINX Plus, qui est déployé directement sur l’IPU Intel. NGINX Plus agit comme un proxy de trafic, décryptant les données et les acheminant en toute sécurité via le bus PCIe vers les serveurs d'inférence Intel OpenVINO hébergés sur le système Dell R760. Les résultats sont ensuite renvoyés via NGINX Plus pour être livrés au client IA.
Bien que le flux de travail lui-même soit convaincant, les avantages architecturaux ajoutent encore plus de valeur. En transférant les tâches d’infrastructure à l’IPU, la solution offre à la fois des avantages en termes de performances et une répartition claire des responsabilités pour les administrateurs.
L’un des avantages essentiels du déploiement de NGINX Plus sur l’IPU Intel est le déchargement des tâches d’infrastructure du processeur du système hôte. Des éléments tels que le routage du trafic, le décryptage et le contrôle d’accès, qui peuvent être gourmands en ressources, sont entièrement gérés par l’IPU. Cela signifie que le processeur hôte dispose de beaucoup plus de cycles disponibles pour se concentrer sur les charges de travail spécifiques à l'application, comme l'exécution de modèles d'inférence Intel OpenVINO supplémentaires ou la gestion de processus d'IA gourmands en ressources.
Dans des scénarios réels, cela se traduit par une meilleure utilisation de votre matériel serveur coûteux et hautes performances. Au lieu d'être alourdi par des tâches d'infrastructure en arrière-plan, le processeur hôte peut fonctionner à pleine capacité pour les charges de travail qui vous intéressent le plus.
Un autre avantage unique de la solution est la séparation des services d’infrastructure et des charges de travail des application . En exécutant toutes les tâches d'infrastructure (telles que NGINX Plus, la gestion du réseau et le contrôle d'accès) sur l'IPU Intel tout en conservant le serveur d'inférence Intel OpenVINO sur l'hôte, nous avons créé une division claire et nette entre les responsabilités du plan de contrôle.
L'administrateur application Intel OpenVINO est responsable de la gestion des charges de travail d'inférence, du déploiement et de la mise à l'échelle des modèles d'IA et de l'optimisation des performances au niveau de l'application. Alors que l'administrateur de l'infrastructure supervise l'environnement Intel IPU, gère le routage, applique le contrôle d'accès (via les règles FXP) et garantit que les services d'infrastructure fonctionnent de manière sécurisée et efficace en configurant l'instance NGINX Plus.
Cette séparation des tâches élimine l’ambiguïté, renforce la collaboration organisationnelle et garantit que chaque administrateur peut se concentrer directement sur son domaine d’expertise respectif.
Ensemble, ces avantages rendent cette solution non seulement pratique mais également efficace pour faire évoluer les flux de travail d’IA d’entreprise tout en maintenant une utilisation des ressources et une sécurité de premier ordre.
L’un des aspects remarquables de ce système est la manière dont il exploite les opérateurs DPU Red Hat MicroShift et OpenShift pour rendre la configuration et la mise à l’échelle pratiquement sans effort. Honnêtement, ce type d’automatisation semble magique quand on le voit en action. Laissez-moi vous l'expliquer :
Il y a deux groupes. Il y a le cluster OpenShift qui s’exécute sur le système hôte. Plus précisément, il s’agit d’un nœud de travail OpenShift, et il s’exécute sur le Dell R760. Le deuxième cluster est un cluster MicroShift. Il est déployé sur les cœurs ARM de l'IPU Intel. Cette version légère d'OpenShift offre la flexibilité des conteneurs sans la surcharge d'un environnement Kubernetes complet.
Ces clusters fonctionnent ensemble via des opérateurs DPU, qui effectuent le gros du travail en coulisses. Ils communiquent entre eux et échangent des données sur les pods et les réseaux actifs. Cette connexion est particulièrement importante pour la gestion dynamique des règles de sécurité et de circulation.
Voici la partie qui facilite vraiment la vie des développeurs : la création de règles dynamiques. Auparavant, la configuration des règles FXP (utilisées pour gérer le contrôle d’accès au trafic PCIe) nécessitait un effort manuel et une connaissance de la programmation P4. Il ne vous reste plus qu'à déployer vos charges de travail et les opérateurs gèrent tout automatiquement :
L'opérateur crée de nouvelles règles FXP de manière dynamique chaque fois que des pods d'inférence OpenVINO correctement étiquetés sont déployés. Ces règles FXP permettent la communication sur le bus PCIe et, à mesure que les charges de travail augmentent ou diminuent, le système ajuste automatiquement ces règles d'accès, éliminant ainsi les incertitudes de la configuration.
Ce niveau d’automatisation signifie que n’importe qui, des développeurs aux administrateurs système, peut se concentrer sur les charges de travail de l’IA sans se retrouver coincé dans les détails de la configuration de l’infrastructure.
Entrons maintenant dans le vif du sujet : comment fonctionne l’ensemble de ce système pour l’inférence de l’IA. Prenons l’exemple de la reconnaissance d’espèces animales dans des images à l’aide de la boîte à outils de déploiement d’apprentissage profond Intel OpenVINO. Voici à quoi ressemble le flux de travail étape par étape
Tout d’abord, les données d’image cryptées sont envoyées à partir d’un client IA via un appel API GRPCS. NGINX Plus, exécuté sur l'IPU Intel, décrypte les données et agit comme un proxy de trafic. Ce trafic circule ensuite en toute sécurité sur le bus PCIe vers les serveurs d’inférence Intel OpenVINO hébergés sur le Dell R760. Les serveurs d'inférence Intel OpenVINO traitent les images à l'aide du modèle d'IA ResNet pour déterminer l'espèce dans chaque image. Par exemple, il pourrait déduire : « Ceci est un golden retriever » ou « C’est un chat tigré ». Les résultats sont renvoyés via le même chemin, via NGINX Plus et ensuite vers le client.
Le système peut être configuré pour gérer plusieurs clients IA traitant simultanément des lots d’images. Même si plusieurs clients exécutent des demandes d’inférence en boucle, le système restera sécurisé, transparent et réactif.
Parlons de l’un des principaux avantages de ce système : la sécurité. L'IPU Intel ne se contente pas de traiter le trafic : elle protège activement la communication entre l'infrastructure et les charges de travail d'inférence exécutées sur l'hôte.
Voici comment cela fonctionne : L'IPU utilise des règles FXP pour contrôler le trafic sur l'interface PCIe. Seul le trafic autorisé par ces règles générées dynamiquement (gérées par les opérateurs DPU) est autorisé à circuler. Cela garantit une communication sécurisée tout en bloquant accès non autorisé au système hôte. Ce type de sécurité en couches permet d’atténuer les risques, en particulier pour les entreprises qui traitent des données sensibles via des pipelines d’IA.
Pour moi, la magie de cette solution réside dans son mélange parfait de performance, d’automatisation et de sécurité. En isolant la gestion de l'infrastructure sur l'IPU tout en hébergeant les charges de travail d'inférence sur la machine hôte, Intel, Red Hat et F5 ont créé une configuration à la fois efficace et sécurisée.
Voici ce qui fait de cette configuration un véritable changement :
Cette solution basée sur Intel OpenVINO rassemble le matériel et les logiciels d'une manière qui semble simple. L'IPU E2100 d'Intel, Red Hat OpenShift et F5 NGINX Plus offrent un exemple de premier ordre de la manière de simplifier les pipelines d'inférence d'IA complexes tout en améliorant la sécurité et l'évolutivité.
Que vous soyez développeur, architecte d’infrastructure ou décideur d’entreprise, cette solution offre un modèle pratique pour gérer les charges de travail d’IA dans un environnement moderne et conteneurisé. Si cela a piqué votre intérêt, n’hésitez pas à contacter Intel, F5 ou Red Hat pour découvrir comment cette configuration peut s’intégrer à votre flux de travail.
C’est passionnant de voir comment cette technologie évolue et, pour ma part, j’ai hâte de voir la prochaine série d’innovations. Pour en savoir plus, regardez ma vidéo de démonstration sur LinkedIn .