BLOG

F5 lança inovação com novos e poderosos recursos de IA no BIG-IP Next para Kubernetes em DPUs NVIDIA BlueField-3

Ahmed Guetari Miniatura
Ahmed Guetari
Publicado em 11 de junho de 2025

Os líderes empresariais sabem que precisam colocar a IA em primeiro lugar. Mas é mais fácil falar do que fazer. A IA pode ser complexa, cara e arriscada. E tanto a tecnologia quanto o ecossistema estão evoluindo rapidamente.

Primeiro, há uma mudança clara em relação à abordagem única para todos. IA/ML preditiva, IA generativa e agora IA agêntica estão sendo adaptadas para indústrias e applications específicas. À medida que modelos de IA desenvolvidos especificamente proliferam, o cenário da IA está se tornando cada vez mais diversificado.

Agora está claro que os applications de IA exigem uma infraestrutura personalizada, não apenas otimizada para desempenho, custo e eficiência energética, mas também capaz de acompanhar as necessidades em rápida evolução dos modelos, applications e agentes de IA. Um exemplo perfeito é o Model Context Protocol (MCP), uma inovação poderosa que nem existia há alguns meses.

À medida que as organizações correm para aproveitar a IA generativa e, cada vez mais, os agentes de IA, algumas estão construindo seus próprios data centers dedicados. Outros estão recorrendo a provedores especializados que implantam infraestruturas em escala de nuvem adaptadas para dar suporte a vários modelos de grandes linguagens (LLMs). Frequentemente chamadas de fábricas de IA ou Neoclouds, essas plataformas apresentam grandes investimentos em computação acelerada, rede e armazenamento, todos desenvolvidos especificamente para atender ao desempenho intenso e dimensionar as demandas das cargas de trabalho de IA.

A construção de uma infraestrutura de inferência de IA e LLM soberana e escalável exige o enfrentamento de quatro desafios principais:

  1. Latência e desempenho – Uma IA rápida e responsiva é essencial, especialmente para casos de uso interativos. Ninguém gosta de ficar olhando para um spinner esperando uma IA pensar.
  2. Segurança de dados – Os LLMs geralmente lidam com dados confidenciais. Garantir inferência segura e privada é essencial e ainda mais complexo devido às diferentes regras de segurança e conformidade em ambientes de nuvem e locais.
  3. Conformidade regulatória – Com a expansão da IA em todos os setores, regulamentações como o Regulamento Geral de Proteção de Dados (GDPR) da União Europeia adicionam regras rígidas sobre uso de dados, seleção de modelos, transparência e justiça. Navegar por eles é essencial.
  4. Gerenciamento e integração de modelos – Os modelos de IA precisam de gerenciamento contínuo, incluindo controle de versão, monitoramento e atualizações, e devem se integrar perfeitamente aos sistemas existentes. Não é plug and play, mas protocolos como o MCP estão facilitando, apesar dos desafios de segurança que os modelos de IA enfrentam.

Utilizando o melhor chip para o trabalho

Na F5, estamos colaborando com a NVIDIA para ajudar a garantir que as fábricas de IA e a infraestrutura de IA em escala de nuvem atendam às demandas da IA moderna. Hoje, no NVIDIA GTC Paris 2025 , estamos revelando o próximo nível de inovação com novos recursos para o F5 BIG-IP Next para Kubernetes implantado em DPUs NVIDIA BlueField-3 . Isso se baseia no desempenho aprimorado, na multilocação e na segurança que apresentamos no GTC San Jose 2025. Parte da plataforma de entrega de application e segurança F5 , o F5 BIG-IP Next para Kubernetes é executado nativamente no NVIDIA BlueField-3 , processadores poderosos e programáveis ​​desenvolvidos especificamente para movimentação e processamento de dados.

Ao descarregar tarefas como processamento de rede, gerenciamento de armazenamento e operações de segurança (por exemplo, criptografia e monitoramento de tráfego), as DPUs liberam ciclos valiosos de CPU e recursos de GPU para focar em treinamento e inferência de IA. Isso reduz gargalos, aumenta o desempenho e melhora a latência, ajudando as fábricas de IA a operar com mais rapidez e eficiência, entregando mais tokens.

Localizadas em placas de interface de rede, as DPUs gerenciam o fluxo de dados entre servidores e entre clientes/usuários/agentes externos e a fábrica de IA, orquestrando a rede e a segurança em escala. O F5 BIG-IP Next para Kubernetes implantado em DPUs NVIDIA BlueField-3 ficou disponível em abril.

Encaminhando prompts de IA para o lugar certo e o resultado certo

Os LLMs avançaram rapidamente nos últimos meses, oferecendo agora uma ampla variedade de tamanhos, custos e especialização em domínios específicos. A escolha do modelo certo para cada prompt não só garante melhores respostas e conformidade regulatória, mas também otimiza o consumo de recursos, custos e latência.

Com a integração atual dos microsserviços NVIDIA NIM , as organizações agora podem encaminhar de forma inteligente solicitações de prompt de IA para o LLM mais adequado ou precisamente para o modelo certo para cada tarefa. Por exemplo, modelos leves e com baixo consumo de energia podem lidar com solicitações simples, enquanto solicitações mais complexas ou grandes e especializadas são direcionadas a modelos maiores ou específicos de domínio.

Essa abordagem permite que fábricas de IA usem recursos de computação de forma mais eficiente, reduzindo os custos de inferência em até 60%. É vantajoso para ambos, provedores e usuários de modelos, ter uma resposta melhor, mais rápida e com um custo melhor.

Menos por mais: O cache elimina a computação redundante e aumenta a saída de tokens

Além das GPUs, a NVIDIA continua inovando no nível de software para enfrentar os principais desafios na inferência de IA. O NVIDIA Dynamo e o KV cache, que estão incluídos no NVIDIA NIM, são ótimos exemplos. O NVIDIA Dynamo apresenta o serviço desagregado para inferência, separando a compreensão de contexto (pré-preenchimento), que exige muita computação da GPU, da geração de resposta (decodificação), que exige muita largura de banda da memória, em diferentes clusters de GPU. Isso melhora a utilização da GPU e simplifica o dimensionamento entre data centers ao gerenciar com eficiência o agendamento, o roteamento e o gerenciamento de memória. O cache KV otimiza como o contexto do modelo é armazenado e acessado. Ao manter os dados usados com frequência na memória da GPU e transferir o restante para a CPU ou armazenamento, ele alivia os gargalos de memória, permitindo suporte para modelos maiores ou mais usuários sem a necessidade de hardware extra.

Um novo e poderoso recurso do BIG-IP Next para Kubernetes é seu suporte ao cache KV, que acelera a inferência de IA e reduz o tempo e o uso de energia. Combinado com o roteamento inteligente do NVIDIA Dynamo, com base em algumas métricas explícitas, como uso de memória da GPU e outros critérios, isso permite um tempo significativamente menor para o primeiro token (TTFT), maior geração de tokens e, finalmente, uma taxa de transferência mais rápida. O DeepSeek mostrou ganhos de 10x a 30x em capacidade.

Os clientes podem usar a programabilidade do F5 para estender e adaptar os recursos do F5 BIG-IP para atender às suas necessidades precisas e exclusivas com desempenho muito alto.

Operacionalizando e protegendo o MCP e para uma IA ágeis, segura e soberana

Para a maioria das organizações, e especialmente as grandes, como empresas de serviços financeiros, empresas de telecomunicações e empresas de saúde com sistemas legados complexos, a IA agêntica tem um grande apelo. Desenvolvidos com base em LLMs, esses agentes de IA podem navegar em bancos de dados, servidores, ferramentas e applications complexos para recuperar informações precisas, revelando novos níveis de eficiência e insights.

Lançado pela Anthropic em novembro de 2024, o MCP está transformando a maneira como os sistemas de IA interagem com dados, ferramentas e serviços do mundo real. Atuando como conectores padronizados, os servidores MCP permitem que modelos de IA acessem APIs, bancos de dados e sistemas de arquivos em tempo real, permitindo que a IA transcenda as limitações de dados de treinamento estáticos e execute tarefas com eficiência. À medida que a adoção cresce, esses servidores exigem proxies reversos avançados com balanceamento de carga, segurança forte, autenticação, autorização para dados e ferramentas, bem como integração perfeita com o Kubernetes, tornando o MCP um pilar fundamental da infraestrutura de IA soberana e protegendo e habilitando a IA de agente.

Implantado como um proxy reverso na frente dos servidores MCP, o BIG-IP Next para Kubernetes implantado em DPUs NVIDIA BlueField-3 pode dimensionar e proteger servidores MCP, verificando solicitações, classificando dados, verificando sua integridade e privacidade, protegendo assim organizações e LLMs de ameaças de segurança e vazamentos de dados. Enquanto isso, a programabilidade do F5 torna simples garantir que o application de IA esteja em conformidade com os requisitos do MCP e outros protocolos.

Se o token é a nova moeda, então vamos contá-lo, governá-lo e gastá-lo com sabedoria.

Em anúncios de lucros recentes, algumas grandes organizações começaram a divulgar o número de tokens gerados a cada trimestre, seu crescimento e a receita vinculada a eles. Isso reflete uma necessidade crescente entre nossos clientes: a capacidade de rastrear, gerenciar e controlar o uso de tokens como um orçamento para evitar custos inesperados, como acontece às vezes com nuvens públicas.

É por isso que o BIG-IP Next para Kubernetes agora inclui novos recursos para medir e governar o consumo de tokens em toda a organização. Quando os clientes pedem, nós ouvimos e atendemos com cuidado.

Construindo fábricas de IA seguras, rápidas, soberanas e flexíveis

À medida que as indústrias desenvolvem fábricas de IA e os países constroem suas IAs soberanas, agentes de IA estão surgindo e a infraestrutura, os ecossistemas e os applications devem ser flexíveis e adaptáveis. As organizações que implantam IA de forma eficiente avançarão mais rapidamente, atenderão melhor os clientes e reduzirão custos. Mas para concretizar esse potencial, a IA deve permanecer segura, escalável e econômica, sem diminuir o ritmo da inovação.

É aí que entra o F5. Em março passado, entregamos desempenho, multilocação e segurança. Agora, com o BIG-IP Next para Kubernetes, estamos possibilitando inovação criada para se mover na velocidade da IA.

Nossa promessa: Mais tokens por dólar, por watt. Experimente e veja a diferença em primeira mão.

Vai participar do GTC Paris 2025?

A F5 tem orgulho de ser uma patrocinadora ouro do NVIDIA GTC Paris 2025. Visite-nos no estande G27 para ver como a plataforma de segurança e entrega de application F5 oferece suporte a uma infraestrutura de IA segura e de alto desempenho e participe de nossa sessão conjunta com a NVIDIA, Secure Infrastructure by Design: Construindo Fábricas de IA Confiáveis , na quinta-feira, 12 de junho, às 10h00 CEST. 

Para saber mais sobre o F5 BIG-IP Next para Kubernetes implantado em DPUs NVIDIA BlueField-3, consulte minha postagem anterior no blog . Além disso, não deixe de ler nosso comunicado de imprensa para o anúncio de hoje. 

O foco da F5 em IA não para por aqui: explore como a F5 protege e entrega aplicativos de IA em qualquer lugar .