BLOG

Gestion du trafic intelligente avec F5 BIG-IP Next for Kubernetes

Portrait de Filiz Ucar Ozkan
Filiz Ucar Özkan
Publié le 22 septembre 2025

Avez-vous déjà utilisé une application alimentée par l’IA pour rédiger un contenu ou créer une image—tapé votre demande, appuyé sur Entrée, puis patienté ? Patienté ? Pour finalement recevoir une réponse lente, imprécise et pleine de détails inutiles ?

Aussi frustrant que cela puisse être, le véritable enjeu se joue en coulisses. Pour offrir ces expériences d’IA, vous devez soit bâtir vous-même une infrastructure très performante, soit faire appel à des fournisseurs de GPU-as-a-Service et LLM-as-a-Service.

Faire paraître tout simple en surface relève d’un défi majeur pour ces fournisseurs. Ils prennent en charge tout le travail en coulisses—maintenir les GPU sollicités, garantir des temps de réponse rapides et contrôler l’usage des jetons—pour vous offrir une expérience fluide et fiable.

Pour compliquer encore les choses, dans le domaine de l’infrastructure IA, une seule chose reste constante : le changement. Les modèles évoluent à grande vitesse. Les charges de travail explosent sans prévenir. Les besoins en sécurité, conformité ou routage apparaissent souvent plus vite que les cycles de mise à jour.

C’est pourquoi la gestion intelligente et programmable du trafic n’est pas un luxe. C’est une nécessité.

Avec F5 BIG-IP Next pour Kubernetes 2.1 déployé sur les DPU NVIDIA BlueField-3, nous faisons évoluer la gestion du trafic en combinant un équilibrage intelligent et une plus grande programmabilité pour répondre aux besoins spécifiques de l’infrastructure IA.

Un équilibrage de charge optimisé pour accélérer l’IA

L’équilibrage de charge traditionnel répartit le trafic de façon uniforme. Cela fonctionne bien pour les applications web, mais avec l’IA, une répartition égale n’est pas toujours optimale. Une petite requête ne doit pas être traitée comme une demande massive chargée de tokens ; sinon, les GPU se surchargent, les chaînes d’inférence se bloquent, ou les ressources restent inutilisées.

BIG-IP Next for Kubernetes 2.1 optimise l’équilibrage de charge en temps réel grâce à la télémétrie NVIDIA NIM, qui surveille les files d’attente des requêtes en attente, l’utilisation du cache clé-valeur (KV), la charge GPU, la disponibilité de la mémoire vidéo à accès aléatoire (VRAM) et la santé globale du système. BIG-IP Next for Kubernetes 2.1 oriente rapidement et intelligemment chaque requête vers la destination de traitement la plus adaptée.

L’impact est évident :

  • Une meilleure utilisation réduit le coût par jeton. Nous optimisons l'utilisation du GPU pour libérer des cycles CPU et minimiser les périodes d'inactivité du GPU. Cela permet d'augmenter le nombre de locataires par serveur tout en réduisant le surprovisionnement.
  • Des réponses plus rapides rendront vos utilisateurs plus satisfaits. En réduisant le temps d’obtention du premier jeton (TTFT) et la latence de réponse, vous offrez des expériences plus fluides, limitez les tentatives répétées et augmentez l’usage.
  • Une meilleure monétisation ouvre la voie à des modèles de revenus évolutifs. En appliquant en temps réel des quotas et des paliers basés sur des jetons, vous bénéficiez de limites de monétisation claires et de modèles tarifaires prévisibles.

Une programmabilité qui s'adapte à votre rythme

L’intelligence vous rend efficace, mais la programmabilité vous offre le contrôle. Grâce à une programmabilité renforcée via F5 iRules sur BIG-IP Next for Kubernetes 2.1, nous donnons aux clients les clés pour réagir immédiatement, sans attendre la prochaine mise à jour.

Aujourd’hui, vous profitez d’un accès à des fonctions telles que le routage LLM, qui oriente en temps réel les requêtes entre modèles et versions, la gouvernance des jetons qui applique les quotas et la facturation directement dans le chemin des données, ainsi que la gestion du trafic MCP pour sécuriser et adapter l’échange de données du protocole de contexte de modèle entre agents d’IA.

Et ce n’est que le commencement. La vraie force de la programmabilité réside dans sa souplesse : avec l'apparition de nouveaux modèles, accords de niveau de service et exigences de conformité, vous pouvez définir vos propres politiques sans vous limiter aux fonctionnalités standard.

La combinaison d'intelligence et de programmabilité dans BIG-IP Next for Kubernetes 2.1 vise non seulement à améliorer les performances, mais aussi à rendre votre infrastructure d'intelligence artificielle plus prévisible, adaptable et économique.

Que vous fournissiez une capacité GPU pour le calcul, les modèles d’IA ou les deux, vous pouvez désormais évoluer sans surdimensionner, monétiser simplement, sécuriser rapidement et personnaliser sans réécriture.

Pour vous, fournisseurs, cela signifie moins de temps perdu à gérer les urgences et plus à innover et développer votre activité. Pour vos clients, cela se traduit par des réponses plus rapides, plus précises et plus fiables. Ces réussites de l’infrastructure en coulisses rendent chaque interaction avec l’IA fluide, offrant des expériences qui fidélisent vos utilisateurs.

Vous voulez découvrir comment fonctionne la gestion du trafic pilotée par l’IA ?

Découvrez ces courtes démonstrations pour voir comment BIG-IP Next for Kubernetes optimise les charges de travail IA :

Rapports des jetons IA et sécurité avec BIG-IP Next pour Kubernetes
Mise à l’échelle et gestion du trafic MCP avec BIG-IP Next pour Kubernetes

Vous pouvez aussi en savoir plus sur la page des solutions d’IA F5.