Ahmed Guetari, vice-presidente de gerenciamento de produtos - provedor de serviços na F5, e Ash Bhalgat, diretor sênior de IA para redes e ecossistemas de segurança na NVIDIA, assinam juntos este post do blog.
A IA vive uma era em que desempenho e segurança na inferência determinam como você supera as expectativas dos clientes. Com a economia de tokens evoluindo, a infraestrutura de IA deixou de depender apenas de poder computacional. Agora, você precisa orquestrar, proteger e expandir as capacidades de inferência, da nuvem até os data centers de borda. Se você opera na nuvem desenvolvendo plataformas de IA generativa e inferência, precisa maximizar a eficiência de GPU, aumentar a capacidade de tokens, diminuir a latência e garantir a segurança em todas as camadas da sua infraestrutura de IA.
A F5 resolve esses desafios ao escalar a inferência usando a arquitetura de referência do NVIDIA Cloud Partner (NCP). Esse guia fundamental mostra como os principais provedores de nuvem de IA projetam, constroem e operam uma infraestrutura acelerada por GPU. A arquitetura de referência reúne tecnologias de ponta em computação, rede, armazenamento e segurança para que os parceiros de nuvem NVIDIA entreguem serviços de IA confiáveis e de alto desempenho em escala.
Com essa colaboração, você conta com o F5 BIG-IP assumindo um papel essencial para viabilizar inferência segura e de alta performance no ecossistema NVIDIA.
A F5 integra recursos de rede, segurança e entrega de aplicações para potencializar plataformas de IA inteligentes, baseadas em tokens, junto com a NVIDIA. Nós mudamos o padrão da IA em escala, entregando velocidade, proteção e inteligência para impulsionar a nova economia de tokens.
A arquitetura de referência do NCP oferece uma estrutura completa para você implantar nuvens de IA. Combinamos computação acelerada, recursos de rede e software da NVIDIA com tecnologias de parceiros líderes do ecossistema, entregando soluções de IA na nuvem com desempenho, escalabilidade e segurança elevados.
Integrando essa arquitetura, o F5 BIG-IP oferece gerenciamento avançado de tráfego, segurança zero trust, serviços avançados e observabilidade para cargas de trabalho de IA com GPU, permitindo que você, como NCP, implemente, escalone e proteja serviços de inferência com total confiança.
Para provedores de nuvem de IA e empresas, os tokens são a nova moeda. Você os acompanha por taxa de transferência, latência total, tempo até o primeiro token, eficiência energética e custo por token. Você alcança sucesso conectando usuários aos clusters de GPU com uma infraestrutura eficiente. Para garantir IA de alto desempenho, roteamento de tráfego, proteção, observabilidade, multitenant e aplicação de políticas precisam funcionar em taxa de linha, sem causar gargalos.
A arquitetura de referência do NCP formaliza esse modelo. Ela estabelece como você deve interconectar computação, rede, armazenamento, telemetria e segurança em nuvens soberanas e de IA. As DPUs NVIDIA BlueField-3 assumem o papel central no tráfego norte-sul nessas arquiteturas.
A F5 fortalece o ecossistema como habilitadora de infraestrutura de alto nível, integrando controle de redes, segurança e inteligência artificial diretamente ao tecido de referência.
A F5 já alcançou ótimos resultados ao integrar a tecnologia NVIDIA. Em abril de 2025, a F5 anunciou a disponibilidade geral do F5 BIG-IP Next for Kubernetes acelerado com as DPUs NVIDIA BlueField-3. Você pode transferir o processamento de rede, a aplicação de políticas de segurança e o gerenciamento inteligente de tráfego para a DPU, liberando as CPUs para executar as aplicações do seu negócio. A SoftBank, uma NCP que realizou recentemente testes de prova de conceito (PoC) em nuvem, conquistou resultados de desempenho excepcionais.
Além do desempenho bruto, o F5 BIG-IP oferece recursos que atendem diretamente às necessidades operacionais dos NCPs, como controle unificado de políticas de entrada e saída, service mesh, mitigação de ataque de negação de serviço distribuído (DDoS), enforcement de zero trust, proteção de APIs, isolamento de workloads e observabilidade multi-tenant — tudo em um só fluxo.
Ao trabalhar com você, aprimoramos a lógica de roteamento para grandes modelos de linguagem (LLM), a medição e a governança de tráfego baseada em tokens, além do suporte ao Model Context Protocol (MCP), colocando mais controle e inteligência diretamente no caminho de dados.
Ao adotar a arquitetura de referência do NCP, você transforma o BIG-IP em um pilar da construção, implantação e governança das nuvens de IA.
Os resultados iniciais da validação mostram alto potencial. Quando você utiliza os serviços F5 BIG-IP junto da plataforma de computação acelerada NVIDIA, a geração de tokens cresce mais de 30%, enquanto o tempo até o primeiro token (TTFT) diminui 60%.
Você percebe respostas mais longas e contextuais, processamento mais rápido e economiza 30% no custo por token. Com mais tokens por watt, essa integração aprimora desempenho e eficiência energética, pontos essenciais na nova economia de IA.
Se você usa a nuvem, vai perceber vantagens claras ao operar em NCPs: conquista valor mais rápido, reduz seus custos operacionais e entrega experiências superiores aos usuários em qualquer modelo de implantação.
Esses ganhos mostram mais do que avanços graduais; indicam uma evolução estrutural na maneira como você pode usar a nuvem de IA para entregar, proteger e monetizar serviços.
Ao incluirmos o F5 na arquitetura de referência do NCP, você vai obter mais desempenho, mais segurança e novas funcionalidades para sua operação de serviços de IA, especialmente nos seguintes pontos:
1. Ganhos de desempenho: Projetado para a economia de tokens: O F5 BIG-IP se integra sem esforço a GPUs, DPUs, fabrics de rede e componentes de plataforma NVIDIA (NVIDIA Dynamo, NVIDIA NIM) para você aproveitar ao máximo a performance de inferência em IA. Com a solução F5, você otimiza o roteamento de prompts, o balanceamento de carga e a eficiência da inferência, elimina gargalos e alcança mais tokens por segundo em cada cluster.
Em um ambiente onde cada token conta para a receita e a precisão dos modelos, você conquista mais produtividade, respostas mais rápidas e aumenta a lucratividade. Quando F5 e NVIDIA trabalham juntas, você aproveita ao máximo a infraestrutura acelerada na nova economia de tokens, em que eficiência e desempenho impulsionam diretamente os resultados do seu negócio.
2. Segurança reinventada para inferência de IA: Ao operar IA em larga escala, você enfrenta novas superfícies de ataque, desde exposição de dados até abuso de endpoints dos modelos. Nós colocamos toda a expertise em segurança das aplicações e aplicação de políticas da F5 na arquitetura de referência da NVIDIA, oferecendo uma proteção em múltiplas camadas que reforça as nuvens de GPU desde o núcleo até a borda. Inclui:
Você conta com uma estrutura de IA confiável, que une desempenho e proteção. Assim, seu negócio pode crescer com segurança, mantendo a conformidade e a confiança.
3. Funcionalidade ampliada e controle nativo de IA: Você encontra, além de desempenho e segurança, novos serviços agregados graças à colaboração entre F5 e NVIDIA, ampliando o controle, a visibilidade e a inteligência em clusters de GPU. Recursos como roteamento LLM, governança granular de tokens, observabilidade adaptável e direcionamento de tráfego sensível ao contexto te permitem otimizar, em tempo real, o direcionamento de workloads e o uso dos recursos.
Esses recursos levam a entrega de aplicações em nível empresarial para o universo da IA, e você conta com precisão e eficiência no tratamento de cada token, cada modelo e cada interação do usuário. A F5 faz você transformar a complexidade em controle, unindo aplicações tradicionais ao mundo dinâmico da IA generativa.
Quando você alinha as capacidades do F5 à arquitetura de referência do NCP, criamos juntos um novo padrão, em que taxa de transferência, custo por token, latência, eficiência energética e segurança ocupam papel central no design da infraestrutura de IA.
Se você constrói nuvens de IA sobre essa base, consegue escalar com mais previsibilidade, monetizar com mais transparência e se adaptar rapidamente conforme os modelos e cargas de trabalho mudam. NCPs, empresas e nuvens soberanas agora contam com uma stack de referência validada, que garante confiança e desempenho sólidos.
A F5 vai além de apenas integrar o ecossistema da NVIDIA. Juntos, levamos a economia de tokens adiante, onde cada microssegundo, watt e token faz diferença. Como parceira estratégica de uma infraestrutura de IA segura, de alto desempenho e escalável, a F5 se une à NVIDIA para que você gere tokens com mais eficiência, velocidade, segurança e inteligência.
Queremos trabalhar com você — cliente, parceiro e inovador — para criar a próxima geração de serviços de IA sem abrir mão da qualidade. Para saber mais, acesse nossa página da F5 e NVIDIA.