BLOG

Comment F5 NGINX Plus alimente les clusters d'IA

Miniature de Liam Crilly
Liam Crilly
Publié le 3 juillet 2025

Au cours de la dernière décennie, NGINX Open Source est devenu l’un des serveurs web les plus utilisés au monde et une solution de distribution d’applications leader sur le marché. Nous avons aidé à équilibrer la charge et à faire office de proxy inverse pour tout, des petites startups et projets de recherche universitaire aux plus grandes applications web mondiales.

Tout comme il est devenu la référence pour la livraison d’applications, NGINX s’impose discrètement comme un élément clé dans la formation et la mise en service des applications d’IA. Les principaux frameworks, kits d’outils, bibliothèques et plateformes d’IA—comme Intel OpenVINO Model Server, NVIDIA Morpheus, Meta vLLM, NVIDIA Triton et d’autres—intègrent nativement des configurations pour F5 NGINX Plus (et NGINX Open Source) afin de gérer le proxy gRPC/HTTP, la terminaison SSL/TLS, l’équilibrage de charge avec prise en compte de l’état des services et la reconfiguration dynamique dès l’installation. De nombreux services et solutions IA fonctionnant sur des clusters Kubernetes privilégient le contrôleur d’ingress F5 NGINX pour gérer le trafic entrant et sortant des clusters d’IA, que ce soit pour l’entraînement ou l’inférence des modèles. Si vous grattez un peu, vous constaterez que vous le trouverez presque partout où l’IA est présente.

Dans de nombreux cas d’usage de l’IA, NGINX joue un rôle essentiel dans la pile IA. Que vous affiniez des modèles de base, diffusiez des tokens issus de LLM ou routiez des requêtes vers des points de détection d’anomalies en temps réel, il y a de fortes chances que NGINX intervienne dans le chemin des données.

Pourquoi les équipes IA choisissent NGINX Plus

  • Ingress natif Kubernetes : La plupart des plateformes d’IA fonctionnent aujourd’hui sur Kubernetes, et NGINX reste l’ingress par défaut ou préféré dans des outils comme Run:ai, KServe et Ray Serve. Au fur et à mesure que les applications d’IA s’étendent aux environnements hybrides, multicloud et edge computing, NGINX Gateway Fabric propose une mise en œuvre native Kubernetes de l’API Gateway avec une empreinte légère et un contrôle précis du trafic, vous offrant une meilleure maîtrise du routage, des tentatives, et de l’observabilité, sans complexifier le maillage.
  • Déploiements dynamiques à grande échelle : Les charges d’inférence IA concernent souvent des sessions précieuses, limitées par GPU, qui exigent une gestion rigoureuse des versions et une disponibilité continue. NGINX facilite le rechargement dynamique de la configuration, la répartition pondérée du trafic et les contrôles de santé actifs, ce qui vous permet de déployer de nouvelles versions de modèles en toute sécurité, sans interrompre les sessions en cours ni saturer les files d’attente GPU.
  • Gestion des API prête à être déployée : Les serveurs modèles comme Triton, vLLM et OpenVINO utilisent gRPC ou HTTP/2 pour assurer une communication rapide et structurée. NGINX offre un support solide et performant pour ces protocoles, incluant la réutilisation des connexions, la persistance des sessions, la terminaison TLS et la mise en tampon des requêtes – autant d’éléments essentiels pour gérer les pics et le trafic soutenu d’inférences IA.
  • Contrôle opérationnel : NGINX Plus vous offre des fonctionnalités avancées comme les mises à jour de configuration RESTful, la gestion dynamique des upstreams et un pare-feu applicatif web (WAF) de niveau entreprise. Pour les équipes qui gèrent des dizaines ou des centaines d’instances NGINX sur plusieurs clusters, F5 NGINX One fournit une console centralisée pour administrer configurations, état et politiques de sécurité — un atout clé pour les équipes supportant plusieurs types de modèles ou cas d’utilisation IA avec des profils d’accès et de risque variés.
  • Passerelle F5 AI : Conçue pour les charges d’IA, la Passerelle AI renforce NGINX en plaçant la sécurité du trafic IA au premier plan. Elle intègre des protections personnalisables contre l'injection de requêtes malveillantes et les réponses toxiques, ainsi que des limitations de débit et des quotas pour éviter le scraping, les inondations ou les requêtes excessives dans les environnements où le GPU est limité. Vous pouvez appliquer différentes règles de sécurité selon les routes d'inférence : par exemple, adopter des politiques plus strictes pour les modèles génératifs tout en laissant plus de souplesse aux API vectorielles. Nous enregistrons tout le trafic, au niveau des jetons ou des requêtes, pour alimenter vos pipelines d’observabilité et soutenir les besoins d’audit.

Les principaux frameworks, outils et services managés en IA intègrent NGINX

NGINX figure parmi les options d’ingress par défaut pour de nombreuses plateformes, outils et services gérés AIOps majeurs.

Cadre d'intelligence artificielle

Comment vous utilisez NGINX 

Bénéfice concret 

Intel OpenVINO Model Serve F5 et Intel présentent en démonstration le déploiement de fragments de modèles derrière NGINX Plus (YouTube) Une passerelle peut acheminer vers des back-ends CPU, GPU ou VPU.
NVIDIA Triton Le chart Helm installe Triton avec NGINX Plus Ingress pour offrir un accès gRPC (GitHub) Le multiplexage HTTP/2 optimise l'utilisation du GPU.
NVIDIA Morpheus  Le guide « Comment je l’ai fait » sécurise Morpheus avec NGINX Plus Ingress (Communauté F5) Déchargement TLS et Advanced WAF en tête d’une détection de sécurité en temps réel.  
NVIDIA (XLIO) Guide de déploiement de NGINX avec NVIDIA Accelerated IO (XLIO) (docs.nvidia.com) Nous améliorons le déchargement TLS et optimisons les performances, avec des instructions de compilation intégrant la prise en charge d'OpenSSL ainsi que des fichiers d'exemple.  
Meta vLLM  Les documents officiels expliquent comment répartir plusieurs instances vLLM via NGINX (vLLM). Nous assurons une mise à l'échelle horizontale rapide des points de terminaison de génération de texte.

Les équipes MLOps adoptent les produits NGINX pour les mêmes raisons que celles qui gèrent les microservices et les API, éléments essentiels aux déploiements d'IA. NGINX est léger, modulaire, portable et gère des volumes élevés de jetons dans de nombreux environnements. En tant que développeur IA ou ingénieur en machine learning, vous pouvez déployer NGINX en intégrant une image de conteneur configurée par votre plateforme ou votre équipe MLOps dans vos recettes d'IA standards. NGINX fonctionne avec l’accélération matérielle sur la plupart des plateformes et architectures processeur courantes.

Les composants d’IA intégrant NGINX comme option par défaut couvrent tous les aspects de l’infrastructure IA, de la planification bas niveau des GPU à la diffusion de modèles, à l’orchestration des déploiements et à la gouvernance d’entreprise haut de gamme. Ils illustrent ensemble comment NGINX vous aide à routez le trafic vers les points d’inférence de manière sécurisée, à déployer efficacement des modèles évolutifs, à gérer l’accès multi-locataire aux clusters et à appliquer des règles opérationnelles strictes sur le contrôle des versions, l’audit et la conformité réglementaire.

  • KServe : Les guides de déploiement partent du principe que vous disposez déjà d’un domaine NGINX Ingress Controller pour le routage des services d’inférence.
  • Ray Serve : La documentation vous guide pour configurer NGINX Ingress Controller afin d'exposer les tableaux de bord et les points de terminaison des modèles.
  • Seldon Core v2 : Les chapitres sur le déploiement en production expliquent comment configurer NGINX Ingress Controller via Helm, y compris pour les scénarios de trafic canary et shadow.
  • Run:ai : Nous listons NGINX comme contrôleur d’entrée validé pour les clusters Kubernetes multi-locataires avec partage de GPU.
  • AWS SageMaker : La documentation propose des exemples utilisant NGINX et Gunicorn pour sécuriser des conteneurs d'inférence personnalisés.
  • Azure AKS : Microsoft met à votre disposition un contrôleur NGINX Ingress géré, intégré et prêt à l’emploi pour gérer le trafic entrant dans le cluster.
  • DataRobot : Les instructions d’installation vous conseillent d’utiliser le contrôleur d’entrée NGINX (v4.0.0+) pour le routage des requêtes par chemin vers les serveurs de prédiction portables sur EKS.

NGINX facilite la mise en place du MLOps

Ces plateformes et outils couvrent ensemble l’ensemble de l’infrastructure IA : de la gestion bas niveau des GPU à la diffusion avancée de modèles, l’orchestration des déploiements et la gouvernance d’entreprise rigoureuse. Ils illustrent concrètement comment NGINX sécurise le routage du trafic vers les points d’inférence, facilite une livraison efficace et scalable des modèles, gère l’accès multi-tenant aux clusters, et applique des règles opérationnelles strictes sur le contrôle des versions, l’audit et la conformité réglementaire. Cette liste ne cesse de s’allonger, et nous sommes enthousiastes à l’idée de voir comment la nouvelle génération d’entreprises spécialisées en IA fera évoluer ses solutions avec NGINX.

Bénéficiez d’un accompagnement pour faire évoluer votre IA avec F5 NGINX One.