BLOG

Qu'est-ce qu'une usine d'IA ?

Miniature de Hunter Smit
Chasseur Smit
Publié le 11 octobre 2024

Lorsque ChatGPT a été lancé en novembre 2022, les questions que nous avons posées et les invites que nous avons saisies étaient simples : « Raconte-moi une histoire sur X » et « Écris un récit entre une personne A et une personne B sur le sujet Z. » À travers ces questions et nos premières interactions avec GPT-3.5 à l’époque, nous essayions d’identifier comment cette nouvelle technologie tendance allait impacter notre vie quotidienne. Aujourd’hui, fin 2024, l’IA complète nos vies : elle nous aide à déboguer et à écrire du code, à compiler et à résumer des données et à conduire des véhicules autonomes, pour n’en citer que quelques-uns. Ce sont les résultats d’une usine d’IA moderne, et nous n’en sommes qu’au début.

Cet article, le premier d'une série sur les usines d'IA, explore les composants d'une usine d'IA et la manière dont les différents éléments fonctionnent ensemble pour générer des solutions pilotées par l'IA à grande échelle.

Définition des usines d’IA

Au milieu de l’évolution de l’IA, le concept d’usine d’IA est apparu comme une analogie de la manière dont les modèles et services d’IA sont créés, affinés et déployés. Tout comme une usine de fabrication traditionnelle qui prend des matériaux et les transforme en produits finis, une usine d’IA est un investissement massif en matière de stockage, de réseau et de calcul répondant à des exigences de formation et d’inférence à haut volume et à haute performance.

Au sein de ces usines, des réseaux de serveurs, d’unités de traitement graphique (GPU), d’unités de traitement de données (DPU) et de matériel spécialisé fonctionnent en tandem pour traiter de vastes quantités de données, exécutant des algorithmes complexes qui entraînent les modèles d’IA à atteindre des niveaux élevés de précision et d’efficacité. Ces infrastructures sont méticuleusement conçues pour gérer l’immense puissance de calcul requise pour former des modèles à grande échelle et les déployer pour l’inférence en temps réel. Ils intègrent des solutions de stockage avancées pour gérer et récupérer des ensembles de données massifs, garantissant un flux de données fluide.

Nous maximisons les performances et l’utilisation des ressources grâce à l’équilibrage de charge et à l’optimisation du réseau, ce qui évite les goulots d’étranglement et assure l’évolutivité. En orchestrant matériel et logiciel, vous permettez aux usines d’IA de créer des modèles d’IA de pointe et de les affiner continuellement, en s’adaptant aux nouvelles données et aux exigences changeantes. L’usine d’IA représente l’industrialisation du développement de l’IA, en fournissant l’infrastructure robuste qui soutient la prochaine génération d’applications intelligentes.

Pourquoi les usines d’IA sont-elles importantes ?

Comme l'a déclaré Jensen Huang, PDG de NVIDIA, lors de Salesforce Dreamforce 2024 : « À aucun moment dans l'histoire, la technologie informatique n'a évolué plus vite que la loi de Moore », poursuivant : « Nous évoluons bien plus vite que la loi de Moore et nous pouvons sans doute facilement égaler la loi de Moore au carré. »

Le déploiement de l’IA à grande échelle devient de plus en plus essentiel, car les investissements dans l’IA servent de différenciateurs de marché essentiels et de moteurs d’efficacité opérationnelle. Pour y parvenir, les organisations doivent continuellement créer et affiner des modèles et intégrer des référentiels de connaissances et des données en temps réel. Le concept d’usine d’IA souligne que l’IA doit être un investissement continu plutôt qu’un effort ponctuel. Il fournit un cadre permettant aux organisations de rendre opérationnelles leurs initiatives d’IA, les rendant ainsi plus adaptables à l’évolution des demandes commerciales et du marché.

Composants d'une usine d'IA

S'appuyant sur notre expertise en matière d'aide aux clients pour déployer des flottes d'applications modernes, performantes et sécurisées à grande échelle, F5 a développé un cadre d'architecture de référence d'IA. Étant donné que les applications d’IA sont les plus modernes des applications modernes, fortement connectées via des API et hautement distribuées, ce cadre répond aux défis critiques en matière de performances, de sécurité et d’exploitation essentiels pour fournir des applications d’IA de pointe.

Sept éléments constitutifs de l’IA

Dans notre architecture de référence, nous avons défini sept éléments de base de l’IA nécessaires à la construction d’une usine d’IA complète :

1. Inférence

Décrit l'interaction entre une application frontale et une API de service d'inférence ; se concentre sur l'envoi d'une demande à un modèle d'IA et la réception d'une réponse. Cela pose les bases d’interactions plus complexes.

inférence

2. Génération augmentée par récupération

Améliore l'inférence de base en ajoutant des services d'orchestration et d'augmentation de récupération de grands modèles de langage (LLM). Il détaille la récupération d'un contexte supplémentaire à partir de bases de données vectorielles et de référentiels de contenu, qui est ensuite utilisé pour générer une réponse enrichie en contexte.

diagramme d'augmentation de récupération

3. Gestion des corpus RAG

Se concentre sur les processus d'ingestion de données requis pour l'inférence avec génération augmentée de récupération (RAG). Il comprend la normalisation des données, l'intégration et le remplissage des bases de données vectorielles, ainsi que la préparation du contenu pour les appels RAG.

diagramme de chiffon

4. Réglage fin

Vise à améliorer les performances d'un modèle existant grâce à l'interaction avec le modèle. Il ajuste le modèle sans le reconstruire à partir de zéro et met l'accent sur la collecte de données à partir de l'inférence et de l'inférence avec RAG pour affiner les flux de travail.

diagramme de réglage fin

5. Entraînement

Il s'agit de construire un nouveau modèle à partir de zéro, même s'il peut utiliser des points de contrôle précédents (re-formation). Il couvre la collecte de données, le prétraitement, la sélection du modèle, la sélection de la méthode de formation, la formation et la validation/les tests. Ce processus itératif vise à créer des modèles robustes adaptés à des tâches spécifiques.

diagramme de formation

6. Intégration de services externes

Nous connectons la couche d’orchestration LLM à des sources externes comme les bases de données et les sites web. Nous intégrons les données externes dans les requêtes d’inférence, sans inclure les étapes de prétraitement des documents telles que le découpage ou l’intégration.

diagramme des services externes

7. Développement

Intègre les processus pour développer, maintenir, configurer, tester et déployer les composants d’application IA. Cela inclut les applications front-end, l’orchestration LLM, la gestion du code source et les pipelines CI/CD.

développement

Ensemble, ces éléments de base constituent l’épine dorsale d’une usine d’IA. Chacun joue un rôle crucial dans la création, le déploiement et le perfectionnement des résultats de l’IA. De plus, les initiatives d'usine d'IA ont tendance à se prêter à la propriété de ses propres stratégies de mise en œuvre (au lieu de les louer ou de les externaliser) pour la plupart des blocs de construction, ce qui entraîne la sélection de modèles de déploiement auto-hébergés parmi les modèles de déploiement répertoriés ci-dessous.

Quatre modèles de déploiement

Pour chacun de ces éléments de base, les clients doivent sélectionner un modèle de déploiement et une stratégie de mise en œuvre appropriés (propre, location ou externalisation), définissant l'architecture de référence optimale pour atteindre les objectifs commerciaux de leurs initiatives d'IA. Voici les quatre meilleurs :

  • L'IA-SaaS implique l'utilisation d'une implémentation SaaS (Software as a Service) d'un service d'inférence, où le fournisseur de services gère l'infrastructure, les mises à jour du modèle et la mise à l'échelle. Les utilisateurs interagissent avec le service via des API sans se soucier de la maintenance sous-jacente. Ce modèle de déploiement est idéal pour les entreprises qui recherchent une simplicité d’utilisation et une intégration rapide sans frais généraux importants. Il permet également une évolutivité rapide et un accès aux dernières fonctionnalités et améliorations.
  • Le déploiement hébergé dans le cloud implique la gestion du service d'inférence à l'aide d'un fournisseur de services cloud (CSP) en tant qu'infrastructure en tant que service (IaaS) ou plate-forme en tant que service (PaaS). Dans ce modèle, l'utilisateur est responsable de la gestion du service, y compris de la configuration, de la mise à l'échelle et de la maintenance, mais bénéficie de l'infrastructure et des outils robustes du CSP. Ce modèle offre flexibilité et contrôle, ce qui le rend adapté aux organisations ayant des exigences spécifiques et une expertise technique. Il permet également une intégration transparente avec d’autres services et outils cloud natifs.
  • Le déploiement en auto-hébergement vous oblige à gérer le service d’inférence dans un centre de données privé autogéré ou via un service de colocation. Ce modèle vous offre un contrôle et une personnalisation optimaux, vous permettant d’adapter précisément l’infrastructure et le service à vos besoins. En contrepartie, vous devez consacrer des ressources importantes à la maintenance, aux mises à jour et à la montée en charge. Les organisations aux exigences strictes en sécurité, conformité ou performance choisissent souvent cette approche, que les solutions cloud ne peuvent satisfaire.
  • Le déploiement en périphérie hébergée consiste à exécuter des services d’IA ou d’apprentissage automatique (ML) directement à la périphérie, par exemple dans un kiosque de vente au détail, un appareil IoT ou d’autres environnements localisés. Ce modèle réduit la latence en traitant les données au plus près de leur source, ce qui le rend idéal pour des applications en temps réel et les situations où la connexion Internet est limitée ou intermittente. Vous devez gérer de manière robuste le matériel et les logiciels locaux, mais vous bénéficiez d’un avantage significatif pour les cas où une prise de décision immédiate et locale est cruciale. Le déploiement en périphérie hébergée apporte une valeur particulière dans les secteurs de la vente, de l’industrie manufacturière et de la santé.

F5 fournit et sécurise les applications d’IA partout

Les capacités de F5 sur lesquelles vous comptez au quotidien pour la livraison et la sécurité des applications sont les mêmes capacités essentielles pour une usine d'IA bien conçue. Le gestionnaire de trafic local F5 BIG-IP , associé au matériel spécialement conçu F5 rSeries et VELOS , permet une ingestion de données hautes performances pour la formation de l'IA. F5 Distributed Cloud Network Connect pour une mise en réseau multicloud sécurisée connecte des emplacements de données disparates, créant un conduit sécurisé entre les données propriétaires et les modèles d'IA pour RAG .

L'accent mis par F5 sur l'IA ne s'arrête pas là : découvrez comment F5 sécurise et fournit des applications d'IA partout .