BLOG

Como o F5 NGINX Plus impulsiona clusters de IA

Miniatura de Liam Crilly
Liam Crilly
Publicado em 03 de julho de 2025

Na última década, o NGINX Open Source tornou-se um dos servidores web mais usados no mundo e uma das principais soluções de entrega de aplicações em participação de mercado. Ele equilibrou cargas e atuou como proxy reverso para tudo, desde pequenas startups e projetos acadêmicos até algumas das maiores aplicações web do planeta.

Assim como se tornou escolha padrão para entrega de aplicações, o NGINX tornou-se silenciosamente peça fundamental no treinamento e na execução de aplicações de IA. Principais frameworks, kits de ferramentas, bibliotecas e plataformas de IA — como Intel OpenVINO Model Server, NVIDIA Morpheus, vLLM da Meta, NVIDIA Triton e outros — já vêm com configurações nativas para F5 NGINX Plus (e NGINX Open Source) para lidar com proxy gRPC/HTTP, terminação SSL/TLS, balanceamento de carga com verificação de saúde e reconfiguração dinâmica prontos para uso. Diversos serviços e soluções de IA executados em clusters Kubernetes indicam F5 NGINX Ingress Controller entre as opções preferenciais para gerenciar o tráfego de entrada e saída desses clusters, tanto no treinamento quanto na inferência dos modelos. Ao investigar mais a fundo, você o encontrará presente em quase todos os ambientes com IA.

Em diversos casos de uso de IA, o NGINX desempenha papel fundamental na pilha de IA. Se você está ajustando modelos base, transmitindo tokens de LLMs ou roteando solicitações para endpoints de detecção de anomalias em tempo real, provavelmente o NGINX já integra esse caminho.

Por que as equipes de IA optam pelo NGINX Plus

  • Entrada nativa do Kubernetes: A maioria das plataformas de IA hoje roda no Kubernetes, e o NGINX continua a ser a entrada padrão ou preferida em ferramentas como Run:ai, KServe e Ray Serve. À medida que os aplicativos de IA se expandem para ambientes híbridos, multinuvem e de borda, o NGINX Gateway Fabric oferece uma implementação nativa do Kubernetes da Gateway API com uma pegada leve e controle detalhado do tráfego—dando às equipes de IA melhor comando sobre roteamento, novas tentativas e observabilidade sem aumentar a complexidade da malha.
  • Implementações dinâmicas em larga escala: Cargas de trabalho de inferência de IA geralmente envolvem sessões valiosas e dependentes de GPU, que exigem versionamento cuidadoso e tempo de inatividade zero. O NGINX permite recarregamento dinâmico de configurações, divisão ponderada de tráfego e verificações ativas de integridade — assim, você pode lançar novas versões de modelos com segurança, sem interromper sessões em andamento ou sobrecarregar filas de GPU.
  • Manipulação de API pronta para produção: Servidores de modelo como Triton, vLLM e OpenVINO dependem de gRPC ou HTTP/2 para uma comunicação rápida e estruturada. O NGINX oferece suporte maduro e de alto desempenho para esses protocolos, além de reutilização de conexão, permanência de sessão, término de TLS e buffer de solicitações — recursos essenciais para gerenciar tráfego de inferência de IA esporádico ou de longa duração.
  • Controle operacional: O NGINX Plus oferece recursos avançados, como atualizações de configuração RESTful, gerenciamento dinâmico de upstream e firewall web para aplicações empresariais (WAF). Para equipes que administram dezenas ou centenas de instâncias NGINX em clusters, o F5 NGINX One inclui um console centralizado para gerenciar configurações, saúde e políticas de segurança—ideal para quem suporta múltiplos modelos ou casos de uso de IA com perfis variados de acesso e risco.
  • F5 AI Gateway: Criado especialmente para cargas de trabalho de IA, o AI Gateway amplia o NGINX com uma abordagem que prioriza a segurança no tráfego de IA. Oferece proteções customizáveis contra injeção de prompt e respostas tóxicas, além de limitar taxas e estabelecer cotas de uso para evitar raspagem, ataques de inundação ou consultas excessivas em ambientes com GPU limitada. Você pode aplicar regras de segurança diferentes em rotas de inferência distintas—por exemplo, adotando políticas mais rigorosas para modelos generativos e deixando APIs vetoriais mais flexíveis. Registramos todo o tráfego, no nível de token ou solicitação, alimentando pipelines de observabilidade e atendendo às demandas de auditoria.

Principais frameworks, ferramentas e serviços gerenciados de IA incorporam o NGINX

NGINX é uma das opções padrão de ingress para muitas das principais pilhas, ferramentas e serviços gerenciados de AIOps.

Framework de IA

Como usamos o NGINX 

Vantagem prática 

Serviço de Modelo Intel OpenVINO Uma demonstração da F5 e da Intel implanta fragmentos do modelo atrás do NGINX Plus (YouTube) Um gateway pode direcionar para backends de CPU, GPU ou VPU.
NVIDIA Triton O chart do Helm instala o Triton com NGINX Plus Ingress para acesso gRPC (GitHub) A multiplexação HTTP/2 mantém alta a utilização da GPU.
NVIDIA Morpheus  Guia "Como fiz" protege Morpheus via NGINX Plus Ingress (Comunidade F5) Descarga de TLS e WAF adaptável diante da inferência de segurança em tempo real.  
NVIDIA (XLIO) Guia para implantar o NGINX com NVIDIA Accelerated IO (XLIO) (docs.nvidia.com) Descarregamento aprimorado de TLS e otimização de desempenho, com instruções de compilação que incluem suporte ao OpenSSL e exemplos de arquivos.  
Meta vLLM  A documentação oficial mostra como balancear várias instâncias vLLM usando NGINX (vLLM) Escalamos rapidamente horizontalmente seus endpoints de geração de texto.

As equipes de MLOps podem usar os produtos NGINX pelos mesmos motivos que as equipes que gerenciam microsserviços e APIs, essenciais nas implantações de IA, adotam o NGINX. Ele é leve, modular, portátil e suporta altos volumes de tokens em diversos ambientes. Você, como desenvolvedor de IA ou engenheiro de machine learning, pode implantar o NGINX ao estabelecer suas receitas comuns de IA, usando uma imagem de contêiner configurada pela sua plataforma ou equipe de MLOps. O NGINX integra-se à aceleração de hardware nas plataformas e arquiteturas de processadores mais comuns.

Componentes de IA que usam o NGINX como opção padrão cobrem todo o espectro da infraestrutura de IA, desde o agendamento de GPU de baixo nível até o serviço avançado de modelos, orquestração de implantações e governança corporativa. Eles mostram claramente como o NGINX suporta diversos casos de uso: roteamento seguro de tráfego para endpoints de inferência, entrega escalável e eficiente de modelos, gerenciamento de acesso a clusters multi-inquilinos e aplicação de políticas operacionais, incluindo controle de versão, auditoria e conformidade regulatória.

  • KServe: Os guias de implantação partem do pressuposto de um domínio existente do NGINX Ingress Controller para solicitar roteamento de serviços de inferência.
  • Ray Serve: A documentação traz instruções para configurar o NGINX Ingress Controller e expor dashboards e endpoints de modelo.
  • Seldon Core v2: Os capítulos de implantação em produção explicam como configurar o NGINX Ingress Controller usando Helm, incluindo cenários para tráfego canário e sombra.
  • Run:ai: A lista de pré-requisitos inclui o NGINX como controlador de ingresso validado para clusters Kubernetes com compartilhamento de GPU entre múltiplos locatários.
  • AWS SageMaker: A documentação mostra exemplos de uso do NGINX e Gunicorn para gerenciar contêineres de inferência personalizados.
  • Azure AKS: A Microsoft disponibiliza um NGINX Ingress Controller gerenciado, integrado e pronto para uso, para o tráfego de entrada dentro do cluster.
  • DataRobot: As instruções de instalação indicam usar o NGINX Ingress Controller (v4.0.0+) para roteamento por caminho até os servidores de previsão portáteis no EKS.

NGINX fornece um caminho claro para MLOps

Essas plataformas e ferramentas cobrem todo o espectro da infraestrutura de IA — desde o agendamento de GPU em nível básico até o atendimento de modelos avançados, orquestração de implantações e governança empresarial. Mostram como o NGINX suporta diversos casos de uso: roteamento seguro do tráfego para endpoints de inferência, entrega de modelos eficiente e escalável, gerenciamento de acesso a clusters multi-inquilinos e aplicação de políticas operacionais sobre controle de versão, auditoria e conformidade regulatória. A lista segue crescendo, e estamos empolgados para acompanhar o que a próxima geração de empresas nativas em IA vai construir com o NGINX.

Conte com suporte para expandir sua IA com F5 NGINX One.