BLOG | BUREAU DU CTO

Ajoutez simplicité, sécurité et performances à l'inférence IA avec F5, Intel et Dell

Miniature de Kunal Anand
Kunal Anand
Publié le 21 mai 2024

Les entreprises cherchent à créer de nouvelles applications et de nouveaux flux de travail basés sur l'IA. Mais les exploiter avec succès peut s'avérer délicat. Plusieurs cadres d’IA et environnements d’application créent de la complexité pour les développeurs et les équipes de sécurité. Ils ont besoin d’une solution qui facilite la création, l’exécution et la sécurisation d’une inférence rapide.

Simplifier le développement et la sécurité de l'IA

Le kit OpenVINO™ d’Intel est un kit open source qui accélère l’inférence d’IA tout en offrant un encombrement réduit et une approche « écrivez une fois, déployez partout ». Il vous aide à concevoir des solutions d’IA efficaces et évolutives avec peu de lignes de code. Vous pouvez utiliser des modèles d’IA entraînés avec des frameworks populaires comme TensorFlow, PyTorch, ONNX, et bien d’autres. Avec OpenVINO, vous commencez par convertir puis optimiser et compresser les modèles pour accélérer les réponses. Le modèle d’IA est alors prêt à être déployé en intégrant l’environnement d’exécution OpenVINO à votre application pour la rendre intelligente. Vous pouvez déployer votre application enrichie d’IA via un conteneur léger, que ce soit dans un centre de données, dans le cloud ou en périphérie, sur différentes architectures matérielles.

Un développeur peut ne pas vouloir héberger le modèle avec l’application ou l’intégrer dans l’application. Le modèle de l’application peut nécessiter d’être mis à jour de temps à autre et l’application peut avoir besoin d’exécuter plusieurs modèles pour fournir les fonctionnalités fournies par l’application. OpenVINO propose une solution avec le serveur de modèles OpenVINO, un système hautes performances défini par logiciel pour servir des modèles dans une architecture client-serveur. Les avantages du serveur de modèles OpenVINO incluent :

  1. Facilité de déploiement : Avec son architecture conteneurisée utilisant Docker, le déploiement de modèles avec le serveur de modèles OpenVINO devient plus simple et évolutif. Il fait abstraction des complexités de la configuration matérielle et des dépendances.
  2. Évolutivité : Le serveur de modèles OpenVINO peut être déployé dans un environnement en cluster pour gérer des charges d'inférence élevées et évoluer horizontalement selon les besoins. Cette évolutivité garantit que les performances d’inférence restent cohérentes même sous de lourdes charges de travail.
  3. Inférence à distance : Le serveur de modèles OpenVINO vous permet d'effectuer des inférences à distance, en réalisant les calculs sur des modèles déployés sur des serveurs distants. Cette capacité s’avère précieuse pour les applications distribuées ou lorsque l’inférence nécessite des serveurs puissants, tandis que votre appareil client dispose de ressources limitées.
  4. Surveillance et gestion : Le serveur de modèles OpenVINO vous permet de surveiller les performances d'inférence et l'utilisation des ressources, tout en gérant efficacement les modèles déployés.

OpenVINO simplifie l'optimisation, le déploiement et la mise à l'échelle des modèles d'IA, mais pour fonctionner en production, ils ont également besoin de sécurité. F5 NGINX Plus fonctionne comme un proxy inverse, offrant une gestion du trafic et une protection pour les serveurs de modèles d'IA. Grâce à des configurations à haute disponibilité et à des contrôles de santé actifs, NGINX Plus peut garantir que les demandes des applications, des flux de travail ou des utilisateurs atteignent un serveur modèle OpenVINO opérationnel. Il permet également l’utilisation de certificats HTTPS et mTLS pour crypter les communications entre l’application utilisateur et le serveur modèle sans ralentir les performances.

Lorsqu'ils sont déployés sur le même serveur hôte ou dans la même machine virtuelle, NGINX Plus filtre le trafic entrant et surveille la santé des conteneurs en amont. Nous proposons également une mise en cache de contenu pour accélérer les performances et alléger la charge du serveur de modèles. Cette solution garantit une sécurité efficace, mais NGINX Plus et les serveurs de modèles OpenVINO peuvent entrer en concurrence pour les ressources sur un seul processeur. Cela peut provoquer des ralentissements ou une baisse des performances.

Accélérer les performances des modèles d’IA

Les services d'infrastructure comme la commutation virtuelle, la sécurité et le stockage utilisent beaucoup de cycles CPU, c’est pourquoi Intel a créé l’Unité de Traitement d’Infrastructure Intel® (Intel® IPU) pour libérer les cœurs CPU et améliorer les performances des applications. Les IPU Intel sont des dispositifs réseau programmables qui gèrent intelligemment les ressources système en accélérant de manière sécurisée les fonctions d’infrastructure réseau et de stockage au sein du centre de données. Ils sont compatibles avec le serveur Dell PowerEdge R760 équipé de processeurs Intel® Xeon®, offrant ainsi performance et polyvalence pour les charges de travail intensives en calcul. L’intégration avec le contrôleur de gestion intégré Dell iDRAC assure un contrôle thermique en boucle fermée de l’IPU.

Utiliser une IPU Intel avec un serveur rack Dell PowerEdge R760 augmente la performance des serveurs de modèles OpenVINO et de F5 NGINX Plus. En faisant fonctionner NGINX Plus sur l'IPU Intel, vous bénéficiez de performances et d'une évolutivité optimales grâce aux accélérateurs matériels intégrés. Vous libérez ainsi des ressources CPU, que vous pouvez consacrer aux serveurs de modèles d'IA.

L'intégration d'une IPU Intel avec NGINX Plus crée un espace d'air de sécurité entre NGINX Plus et les serveurs du modèle OpenVINO. Cette couche de sécurité supplémentaire protège contre les vulnérabilités partagées potentielles pour aider à protéger les données sensibles dans le modèle d'IA.

L'IA puissante à la périphérie

La solution combinée de F5, Intel et Dell facilite la prise en charge de l’inférence de l’IA en périphérie. Avec NGINX Plus sur l'IPU Intel, les réponses sont plus rapides et plus fiables dans la prise en charge des applications de pointe telles que l'analyse vidéo et l'IoT.

La solution fonctionne également pour les réseaux de diffusion de contenu avec une mise en cache et une diffusion de contenu optimisées, tout en fournissant un support pour les déploiements de microservices distribués qui nécessitent une fiabilité dans tous les environnements.

Accélérez la sécurité et les performances de l'IA avec F5, Intel et Dell

Réalisez des inférences d'IA hautes performances n'importe où, de manière sécurisée et cohérente, grâce à une solution matérielle et logicielle combinée. Déployez facilement l'inférence de l'IA dans les centres de données, les clouds ou les sites périphériques tout en maintenant la disponibilité et les performances pour prendre en charge les utilisateurs et les applications alimentées par l'IA.

Apprenez-en plus sur le partenariat F5 et Intel sur f5.com/intel .