BLOG | BUREAU DU CTO

La nécessité de solutions d'infrastructure d'IA axées sur l'optimisation du GPU

Miniature de Lori MacVittie
Lori MacVittie
Publié le 11 juillet 2024

L’IA générative accélère l’impact de l’IA sur les infrastructures. Nous étions déjà entrés dans une renaissance des infrastructures , avec des technologues ravivant l’intérêt et l’admiration pour les couches modestes de réseau, de calcul et de stockage du centre de données. Principalement motivée par la « mort » de la loi de Moore et l’émergence de l’informatique de pointe, nous assistions déjà il y a des années à l’essor des unités de traitement spécialisées (xPU).

Aujourd’hui, l’IA générative — et les jeux vidéo, pour être juste — ont fait des GPU un terme familier et de l’optimisation des GPU un nouveau besoin. 

C’est parce que les GPU sont très demandés et peu disponibles. Les entreprises dépensent déjà, ou prévoient de dépenser, des pourcentages importants de leur budget informatique global pour ce puissant matériel. Une partie de cet investissement est consacrée à leur propre infrastructure, tandis qu’une autre partie sert à soutenir l’infrastructure de cloud public.

Tout cela vise à garantir la disponibilité des ressources GPU pour faire fonctionner les applications d’IA.

En observant, vous constatez que l’introduction d’un nouveau type de ressource dans l’infrastructure soulève des défis. Pendant des années, les organisations ont considéré l’infrastructure comme une commodité. Autrement dit, elle se ressemblait toutes.

Et c’était en grande partie le cas. Les organisations sont standardisées sur des serveurs de type « white box » ou de marque, tous dotés des mêmes capacités de mémoire et de calcul. Cela a facilité les opérations d’infrastructure, car il n’était pas nécessaire, dans la gestion du trafic, de se soucier de savoir si une charge de travail s’exécutait sur le serveur 8756 ou sur le serveur 4389. Ils avaient les mêmes capacités.

Mais maintenant ? Les GPU changent totalement la donne. Vous devez désormais savoir où se trouvent les ressources GPU et comment elles sont utilisées. Et certains signes montrent que ce n’est pas toujours évident.

Selon l’ état de l’infrastructure de l’IA à grande échelle 2024, « 15 % des entreprises déclarent que moins de 50 % de leurs GPU disponibles et achetés sont utilisés. »

Il se peut très bien que ces 15 % d’organisations ne chargent pas suffisamment leurs ressources GPU pour dépasser 50 % d’utilisation. Il se peut aussi qu’elles en aient la charge, mais ne l’exploitent pas.

Il est certain que certaines organisations se retrouveront dans cette dernière catégorie, se demandant pourquoi leurs applications d’IA ne fonctionnent pas aussi bien que les utilisateurs l’attendent alors qu’elles disposent d’une grande capacité GPU disponible.

Une partie concerne l'infrastructure et veille à ce que les charges de travail correspondent bien aux ressources nécessaires. Toutes les charges de travail d'une application d'IA n'ont pas besoin de capacité GPU, après tout. Le serveur d'inférence tirera parti du GPU, mais pas beaucoup d'autres composants. Il faut donc travailler stratégiquement sur l'architecture au niveau de l'infrastructure, en veillant à ce que les charges exploitant le GPU tournent sur des systèmes adaptés, tandis que les autres charges s’exécutent sur des systèmes classiques.

Cela implique de définir des politiques qui identifient clairement quels nœuds disposent ou non de capacités GPU. C’est un élément clé de l’optimisation GPU. Cela exige aussi que les services applicatifs répartissant les requêtes vers ces ressources deviennent plus intelligents. L’équilibrage de charge, le contrôle d’entrée et les passerelles qui répartissent les requêtes sont essentiels pour optimiser l’utilisation de l’infrastructure. Si toutes les requêtes ciblent un ou deux systèmes dotés de GPU, non seulement leurs performances en pâtiront, mais vous gaspillerez aussi une capacité GPU précieuse pour laquelle vous avez payé cher.

Cela pourrait également signifier exploiter ces ressources GPU dans le cloud public. Et pour ce faire, il faut exploiter les services réseau pour garantir la sécurité des données partagées.

Autrement dit, les applications IA vont profondément transformer l’infrastructure, tant par sa distribution que par la façon dont nous la provisionnons et gérons en temps réel. Vous aurez besoin de plus de télémétrie pour que les opérations disposent d’une vision actualisée des ressources disponibles et de leur localisation, ainsi que d’une automatisation efficace pour aligner le provisionnement sur les besoins des charges de travail.

C’est pourquoi les organisations doivent moderniser l’ensemble de leur architecture d’entreprise . Parce qu’il ne s’agit plus seulement de couches ou de niveaux, mais de la manière dont ces couches et ces niveaux s’interconnectent et se soutiennent mutuellement pour répondre aux besoins d’une entreprise numériquement mature , capable d’exploiter la puissance de l’IA .