BLOG | OFICINA DEL CTO

La necesidad de que las soluciones de infraestructura de IA se centren en la optimización de la GPU

Miniatura de Lori MacVittie
Lori MacVittie
Publicado el 11 de julio de 2024

La IA generativa está acelerando el impacto de la IA en la infraestructura. Ya habíamos entrado en un renacimiento de la infraestructura , en el que los tecnólogos estaban reviviendo el interés y la admiración por las humildes capas de red, computación y almacenamiento del centro de datos. Impulsados ​​principalmente por la “muerte” de la Ley de Moore y el surgimiento de la edge computing, ya estábamos viendo el surgimiento de unidades de procesamiento especializadas (xPU) hace años.

Hoy en día, la IA generativa (y los videojuegos, para ser justos) han hecho que las GPU se conviertan en un término común y la optimización de las GPU en una nueva necesidad. 

Esto se debe a que las GPU tienen una gran demanda y una oferta escasa. Las organizaciones ya están desembolsando, o planean desembolsar, porcentajes significativos de su presupuesto total de TI en esta poderosa pieza de hardware. Y parte de esa inversión se destina a su propia infraestructura y parte a respaldar la infraestructura de la nube pública.

Pero todo esto contribuye a respaldar la disponibilidad de recursos de GPU para operar aplicações de IA .

Pero si miramos a nuestro alrededor, descubrimos que la introducción de un nuevo tipo de recurso en la infraestructura plantea desafíos. Durante años, las organizaciones han tratado la infraestructura como un producto básico. Es decir, es lo mismo.

Y en gran medida así fue. Organizaciones estandarizadas en cajas blancas o servidores de marca, todos con la misma memoria y capacidades de procesamiento. Esto facilitó las operaciones de infraestructura, ya que no era necesario preocuparse en la gestión del tráfico sobre si una carga de trabajo se ejecutaba en el servidor8756 o en el servidor4389. Tenían las mismas capacidades.

¿Pero ahora? Oh, las GPU cambian todo eso. Ahora las operaciones de infraestructura necesitan saber dónde están los recursos de la GPU y cómo se utilizan. Y hay señales que pueden no ir tan bien.

Según el informe State of AI Infrastructure at Scale 2024, “el 15 % informa que menos del 50 % de sus GPU disponibles y adquiridas están en uso”.

Ahora bien, es ciertamente posible que ese 15% de organizaciones simplemente no tengan la carga necesaria para utilizar más del 50% de sus recursos de GPU. También es posible que lo hagan y no.

Sin duda, algunas organizaciones se encontrarán en esa última categoría, preguntándose por qué sus aplicaciones de IA no funcionan tan bien como esperan los usuarios cuando tienen mucha capacidad de GPU disponible.

Parte de ello tiene que ver con la infraestructura y con asegurarse de que las cargas de trabajo se correspondan adecuadamente con los recursos necesarios. Después de todo, no todas las cargas de trabajo en una aplicación de IA necesitan capacidad de GPU. La carga de trabajo que se beneficiará será el servidor de inferencia y no mucho más. Esto implica realizar un trabajo de arquitectura estratégica en la capa de infraestructura, para garantizar que las cargas de trabajo que consumen mucha GPU se ejecuten en sistemas habilitados para GPU, mientras que otras cargas de trabajo de aplicaciones se ejecuten en sistemas tradicionales normales.

Esto significa implementar políticas que comprendan qué nodos están habilitados para GPU y cuáles no. Esa es una gran parte de la optimización de la GPU. Esto también significa que los servicios de aplicaciones que distribuyen solicitudes a esos recursos también deben ser más inteligentes. El equilibrio de carga , el control de ingreso y las puertas de enlace que distribuyen las solicitudes son parte de la ecuación de eficiencia cuando se trata de la utilización de la infraestructura. Si cada solicitud se dirige a uno o dos sistemas con GPU habilitada, no solo tendrán un bajo rendimiento, sino que también dejarán a las organizaciones con capacidad de GPU "adicional" por la que pagaron mucho dinero.

También podría significar aprovechar esos recursos de GPU en la nube pública. Y hacer eso significa aprovechar los servicios de red para garantizar que los datos compartidos sean seguros.

En otras palabras, las aplicações de IA tendrán un impacto significativo en la infraestructura en términos de distribución y en cómo se aprovisiona y gestiona en tiempo real. Habrá una mayor necesidad de telemetría para garantizar que las operaciones tengan una visión actualizada de qué recursos están disponibles y dónde están, y una buena automatización para asegurarse de que el aprovisionamiento coincida con los requisitos de la carga de trabajo.

Es por esto que las organizaciones necesitan modernizar toda su arquitectura empresarial . Porque ya no se trata solo de capas o niveles, se trata de cómo esas capas y niveles se interconectan y se apoyan entre sí para facilitar las necesidades de una empresa digitalmente madura que pueda aprovechar el poder de la IA .