O renascimento da infraestrutura tem uma frase de efeito: deixe os servidores servirem e inferirem inferência.
Nos primórdios da tecnologia, passei anos atolado em testes e análises de aceleradores SSL. Esses pequenos cartões foram projetados para resolver um problema significativo que surgiu do crescimento explosivo dos negócios e do comércio digital: as funções de segurança que usavam SSL consumiam ciclos de CPU e eram uma fonte significativa de problemas de desempenho. Então, a indústria — incluindo a F5 — desenvolveu hardware para descarregar essas funções e permitir que os servidores atendessem .
Hoje, estamos vendo os mesmos problemas surgirem com a IA — especificamente a inferência — e, sem ironia, estamos vendo o mesmo tipo de soluções surgirem; ou seja, hardware especializado que permite que os servidores sirvam e infiram inferência .
Sim, não tenho certeza se isso está gramaticalmente correto, mas vamos com isso por enquanto, certo? Obrigado.
Como salientamos, as aplicações de IA são aplicações modernas em sua construção arquitetônica . Mas no cerne de uma aplicação de IA está a inferência, e é aí que a IA diverge das aplicações modernas “normais”.
Vimos como os complexos de computação de IA são construídos a partir de bancos de CPUs e GPUs . Esses recursos de computação têm proporções e equilíbrios que devem ser mantidos para que o cluster continue funcionando de forma eficiente. Toda vez que uma CPU não consegue acompanhar o ritmo, uma GPU muito cara fica ociosa.
Veja, apenas parte do processamento de um servidor de inferência é realmente inferência. Grande parte disso é processamento web padrão de solicitações HTTP e API. É aquela parte do serviço de inferência que usa a CPU e geralmente fica sobrecarregada. Quando isso acontece, as GPUs são usadas cada vez menos, pois o lado do servidor de inferência fica sobrecarregado tentando lidar com solicitações.
É provavelmente por isso que 15% das organizações relatam que menos de 50% de suas GPUs disponíveis e adquiridas estão em uso ( State of AI Infrastructure at Scale 2024 ).
Parte do problema aqui é o uso de recursos da CPU para o que deveria ser trabalho de infraestrutura. Serviços como gerenciamento de tráfego, operações de segurança e monitoramento também consomem recursos da CPU e contribuem para a carga no sistema geral. Isso leva a uma redução na capacidade e no desempenho dos servidores de inferência e leva a uma menor utilização dos recursos da GPU.
Felizmente, esse renascimento da infraestrutura tem tudo a ver com a conservação de recursos da CPU para inferir trabalho, transferindo operações de infraestrutura para uma nova unidade de processamento: a DPU.
Agora, o interessante sobre DPUs é que elas realmente suportam dois modos diferentes. Em um deles, eles podem descarregar redes como RDMA sobre Infiniband ou Ethernet. Isso ajuda imensamente ao construir um complexo de computação de IA no qual quantidades significativas de dados fluirão, como treinar um modelo de IA ou dimensionar a inferência para uma grande base de usuários.
Mas as DPUs também podem ser configuradas no modo 'DPU'. No Kubernetes, isso faz com que eles apareçam como um nó separado no qual funções como entrega de aplicativos e segurança podem ser executadas. Isso efetivamente reserva a computação da CPU para serviços de inferência ao "descarregar" as cargas de trabalho de infraestrutura menos previsíveis e mais exigentes para seu próprio nó no cluster. Isso permite que soluções como o F5 BIG-IP Next SPK (Service Proxy for Kubernetes) gerenciem e protejam solicitações de IA de NS de entrada por meio de API e as distribuam adequadamente para o serviço de inferência apropriado dentro do complexo de computação de IA.
Essa abordagem significa que as organizações podem aproveitar o conhecimento e os investimentos existentes no gerenciamento de infraestrutura do Kubernetes porque nossa solução é nativa do Kubernetes. Núcleo, nuvem, borda — não importa porque a operação está no nível do cluster e isso é consistente em todos os ambientes.
Ele também separa a responsabilidade pelo gerenciamento da entrega de aplicativos e serviços de segurança, o que permite que as equipes de operações de rede e segurança lidem com a infraestrutura independentemente das cargas de trabalho de IA gerenciadas pelas equipes de desenvolvimento e operações de ML.
Por fim, aproveitar a DPU para entrega e segurança de aplicativos oferece melhor suporte às necessidades de multilocação das organizações. Não se trata apenas de isolar cargas de trabalho de clientes, mas de modelar cargas de trabalho. Sabemos por nossa pesquisa que as organizações já estão usando, em média, 2,9 modelos diferentes . Ser capaz de gerenciar o uso de cada um por meio de uma solução consistente permitirá maior confiança na segurança e privacidade dos dados consumidos e gerados por cada modelo individual.
Esta não é a primeira vez que a F5 trabalha com DPUs NVIDIA em casos de uso relacionados à IA . Mas é a primeira vez que trabalhamos juntos para desenvolver uma solução para ajudar clientes de todos os tamanhos a criar complexos de computação de IA escaláveis e seguros para que possam aproveitar com segurança e confiança o poder da inferência em qualquer ambiente e otimizar o uso de recursos de GPU, para que não fiquem parados .