Os líderes empresariais sabem que precisam colocar a IA em primeiro lugar. Mas é mais fácil falar do que fazer. A IA pode ser complexa, cara e arriscada. E tanto a tecnologia quanto o ecossistema estão evoluindo rapidamente.
Primeiro, há uma mudança clara em relação à abordagem única para todos. IA/ML preditiva, IA generativa e agora IA agêntica estão sendo adaptadas para indústrias e applications específicas. À medida que modelos de IA desenvolvidos especificamente proliferam, o cenário da IA está se tornando cada vez mais diversificado.
Agora está claro que os applications de IA exigem uma infraestrutura personalizada, não apenas otimizada para desempenho, custo e eficiência energética, mas também capaz de acompanhar as necessidades em rápida evolução dos modelos, applications e agentes de IA. Um exemplo perfeito é o Model Context Protocol (MCP), uma inovação poderosa que nem existia há alguns meses.
À medida que as organizações correm para aproveitar a IA generativa e, cada vez mais, os agentes de IA, algumas estão construindo seus próprios data centers dedicados. Outros estão recorrendo a provedores especializados que implantam infraestruturas em escala de nuvem adaptadas para dar suporte a vários modelos de grandes linguagens (LLMs). Frequentemente chamadas de fábricas de IA ou Neoclouds, essas plataformas apresentam grandes investimentos em computação acelerada, rede e armazenamento, todos desenvolvidos especificamente para atender ao desempenho intenso e dimensionar as demandas das cargas de trabalho de IA.
A construção de uma infraestrutura de inferência de IA e LLM soberana e escalável exige o enfrentamento de quatro desafios principais:
Na F5, estamos colaborando com a NVIDIA para ajudar a garantir que as fábricas de IA e a infraestrutura de IA em escala de nuvem atendam às demandas da IA moderna. Hoje, no NVIDIA GTC Paris 2025 , estamos revelando o próximo nível de inovação com novos recursos para o F5 BIG-IP Next para Kubernetes implantado em DPUs NVIDIA BlueField-3 . Isso se baseia no desempenho aprimorado, na multilocação e na segurança que apresentamos no GTC San Jose 2025. Parte da plataforma de entrega de application e segurança F5 , o F5 BIG-IP Next para Kubernetes é executado nativamente no NVIDIA BlueField-3 , processadores poderosos e programáveis desenvolvidos especificamente para movimentação e processamento de dados.
Ao descarregar tarefas como processamento de rede, gerenciamento de armazenamento e operações de segurança (por exemplo, criptografia e monitoramento de tráfego), as DPUs liberam ciclos valiosos de CPU e recursos de GPU para focar em treinamento e inferência de IA. Isso reduz gargalos, aumenta o desempenho e melhora a latência, ajudando as fábricas de IA a operar com mais rapidez e eficiência, entregando mais tokens.
Localizadas em placas de interface de rede, as DPUs gerenciam o fluxo de dados entre servidores e entre clientes/usuários/agentes externos e a fábrica de IA, orquestrando a rede e a segurança em escala. O F5 BIG-IP Next para Kubernetes implantado em DPUs NVIDIA BlueField-3 ficou disponível em abril.
Os LLMs avançaram rapidamente nos últimos meses, oferecendo agora uma ampla variedade de tamanhos, custos e especialização em domínios específicos. A escolha do modelo certo para cada prompt não só garante melhores respostas e conformidade regulatória, mas também otimiza o consumo de recursos, custos e latência.
Com a integração atual dos microsserviços NVIDIA NIM , as organizações agora podem encaminhar de forma inteligente solicitações de prompt de IA para o LLM mais adequado ou precisamente para o modelo certo para cada tarefa. Por exemplo, modelos leves e com baixo consumo de energia podem lidar com solicitações simples, enquanto solicitações mais complexas ou grandes e especializadas são direcionadas a modelos maiores ou específicos de domínio.
Essa abordagem permite que fábricas de IA usem recursos de computação de forma mais eficiente, reduzindo os custos de inferência em até 60%. É vantajoso para ambos, provedores e usuários de modelos, ter uma resposta melhor, mais rápida e com um custo melhor.
Além das GPUs, a NVIDIA continua inovando no nível de software para enfrentar os principais desafios na inferência de IA. O NVIDIA Dynamo e o KV cache, que estão incluídos no NVIDIA NIM, são ótimos exemplos. O NVIDIA Dynamo apresenta o serviço desagregado para inferência, separando a compreensão de contexto (pré-preenchimento), que exige muita computação da GPU, da geração de resposta (decodificação), que exige muita largura de banda da memória, em diferentes clusters de GPU. Isso melhora a utilização da GPU e simplifica o dimensionamento entre data centers ao gerenciar com eficiência o agendamento, o roteamento e o gerenciamento de memória. O cache KV otimiza como o contexto do modelo é armazenado e acessado. Ao manter os dados usados com frequência na memória da GPU e transferir o restante para a CPU ou armazenamento, ele alivia os gargalos de memória, permitindo suporte para modelos maiores ou mais usuários sem a necessidade de hardware extra.
Um novo e poderoso recurso do BIG-IP Next para Kubernetes é seu suporte ao cache KV, que acelera a inferência de IA e reduz o tempo e o uso de energia. Combinado com o roteamento inteligente do NVIDIA Dynamo, com base em algumas métricas explícitas, como uso de memória da GPU e outros critérios, isso permite um tempo significativamente menor para o primeiro token (TTFT), maior geração de tokens e, finalmente, uma taxa de transferência mais rápida. O DeepSeek mostrou ganhos de 10x a 30x em capacidade.
Os clientes podem usar a programabilidade do F5 para estender e adaptar os recursos do F5 BIG-IP para atender às suas necessidades precisas e exclusivas com desempenho muito alto.
Para a maioria das organizações, e especialmente as grandes, como empresas de serviços financeiros, empresas de telecomunicações e empresas de saúde com sistemas legados complexos, a IA agêntica tem um grande apelo. Desenvolvidos com base em LLMs, esses agentes de IA podem navegar em bancos de dados, servidores, ferramentas e applications complexos para recuperar informações precisas, revelando novos níveis de eficiência e insights.
Lançado pela Anthropic em novembro de 2024, o MCP está transformando a maneira como os sistemas de IA interagem com dados, ferramentas e serviços do mundo real. Atuando como conectores padronizados, os servidores MCP permitem que modelos de IA acessem APIs, bancos de dados e sistemas de arquivos em tempo real, permitindo que a IA transcenda as limitações de dados de treinamento estáticos e execute tarefas com eficiência. À medida que a adoção cresce, esses servidores exigem proxies reversos avançados com balanceamento de carga, segurança forte, autenticação, autorização para dados e ferramentas, bem como integração perfeita com o Kubernetes, tornando o MCP um pilar fundamental da infraestrutura de IA soberana e protegendo e habilitando a IA de agente.
Implantado como um proxy reverso na frente dos servidores MCP, o BIG-IP Next para Kubernetes implantado em DPUs NVIDIA BlueField-3 pode dimensionar e proteger servidores MCP, verificando solicitações, classificando dados, verificando sua integridade e privacidade, protegendo assim organizações e LLMs de ameaças de segurança e vazamentos de dados. Enquanto isso, a programabilidade do F5 torna simples garantir que o application de IA esteja em conformidade com os requisitos do MCP e outros protocolos.
Em anúncios de lucros recentes, algumas grandes organizações começaram a divulgar o número de tokens gerados a cada trimestre, seu crescimento e a receita vinculada a eles. Isso reflete uma necessidade crescente entre nossos clientes: a capacidade de rastrear, gerenciar e controlar o uso de tokens como um orçamento para evitar custos inesperados, como acontece às vezes com nuvens públicas.
É por isso que o BIG-IP Next para Kubernetes agora inclui novos recursos para medir e governar o consumo de tokens em toda a organização. Quando os clientes pedem, nós ouvimos e atendemos com cuidado.
À medida que as indústrias desenvolvem fábricas de IA e os países constroem suas IAs soberanas, agentes de IA estão surgindo e a infraestrutura, os ecossistemas e os applications devem ser flexíveis e adaptáveis. As organizações que implantam IA de forma eficiente avançarão mais rapidamente, atenderão melhor os clientes e reduzirão custos. Mas para concretizar esse potencial, a IA deve permanecer segura, escalável e econômica, sem diminuir o ritmo da inovação.
É aí que entra o F5. Em março passado, entregamos desempenho, multilocação e segurança. Agora, com o BIG-IP Next para Kubernetes, estamos possibilitando inovação criada para se mover na velocidade da IA.
Nossa promessa: Mais tokens por dólar, por watt. Experimente e veja a diferença em primeira mão.
A F5 tem orgulho de ser uma patrocinadora ouro do NVIDIA GTC Paris 2025. Visite-nos no estande G27 para ver como a plataforma de segurança e entrega de application F5 oferece suporte a uma infraestrutura de IA segura e de alto desempenho e participe de nossa sessão conjunta com a NVIDIA, Secure Infrastructure by Design: Construindo Fábricas de IA Confiáveis , na quinta-feira, 12 de junho, às 10h00 CEST.
Para saber mais sobre o F5 BIG-IP Next para Kubernetes implantado em DPUs NVIDIA BlueField-3, consulte minha postagem anterior no blog . Além disso, não deixe de ler nosso comunicado de imprensa para o anúncio de hoje.
O foco da F5 em IA não para por aqui: explore como a F5 protege e entrega aplicativos de IA em qualquer lugar .