BLOG

Cómo F5 NGINX Plus potencia los clústeres de IA

Miniatura de Liam Crilly
Liam Crilly
Publicado el 3 de julio de 2025

Durante la última década, NGINX Open Source se ha posicionado como uno de los servidores web más utilizados a nivel mundial y una de las soluciones líderes en entrega de aplicaciones según cuota de mercado. Ha facilitado el balanceo de carga y el proxy inverso en proyectos que van desde pequeñas startups y trabajos académicos hasta algunas de las aplicaciones web más grandes del mundo.

Así como se convirtió en la opción predeterminada para la entrega de aplicaciones, NGINX se ha consolidado silenciosamente como un pilar fundamental en el entrenamiento y despliegue de aplicaciones de IA. Los principales frameworks, kits de herramientas, bibliotecas y plataformas de IA—como Intel OpenVINO Model Server, NVIDIA Morpheus, vLLM de Meta, NVIDIA Triton y otros—incorporan configuraciones nativas para F5 NGINX Plus (y NGINX Open Source) que gestionan proxy gRPC/HTTP, terminación SSL/TLS, balanceo de carga con supervisión de salud y reconfiguración dinámica desde el primer momento. Muchos servicios y soluciones de IA que funcionan en clústeres Kubernetes eligen F5 NGINX Ingress Controller como una de sus opciones preferentes para manejar el tráfico que entra y sale de los clústeres de IA, tanto en el entrenamiento de modelos como en su inferencia. Si profundizas, verás que está presente casi en todo lugar donde actúa la IA.

En una gran variedad de casos de uso de IA, NGINX es un factor clave en la arquitectura de IA. Ya sea que afines modelos base, transmitas salidas de tokens de LLM o encamines solicitudes hacia puntos de detección de anomalías en tiempo real, es muy probable que NGINX ya forme parte de la ruta.

Por qué los equipos de IA optan por NGINX Plus

  • Ingreso nativo de Kubernetes: La mayoría de las plataformas de IA funcionan hoy en Kubernetes, y NGINX sigue siendo el ingreso predeterminado o preferido en herramientas como Run:ai, KServe y Ray Serve. Al expandirse las aplicaciones de IA a entornos híbridos, multinube y edge, NGINX Gateway Fabric implementa de forma nativa en Kubernetes la API Gateway con un diseño ligero y control detallado del tráfico, ofreciéndote mejor gestión del enrutamiento, reintentos y observabilidad sin añadir complejidad de malla.
  • Implementaciones dinámicas a gran escala: Las cargas de trabajo de inferencia de IA suelen incluir sesiones de alto valor limitadas por GPU que exigen una gestión precisa de las versiones y cero tiempo de inactividad. NGINX permite recargas dinámicas de configuración, división ponderada del tráfico y comprobaciones activas de salud, para que puedas desplegar nuevas versiones del modelo con seguridad sin afectar sesiones activas ni saturar las colas de GPU.
  • Gestión de API lista para producción: Servidores de modelos como Triton, vLLM y OpenVINO utilizan gRPC o HTTP/2 para una comunicación rápida y estructurada. NGINX ofrece soporte consolidado y de alto rendimiento para estos protocolos, además de reutilización de conexiones, afinidad de sesión, terminación TLS y almacenamiento en búfer de solicitudes, todo imprescindible para gestionar flujos de inferencia de IA repentinos o prolongados.
  • Control operativo: NGINX Plus ofrece funciones avanzadas como actualizaciones de configuración RESTful, gestión en tiempo real del upstream y firewall de aplicaciones web (WAF) empresarial. Si gestionas decenas o cientos de instancias de NGINX en clústeres, F5 NGINX One añade una consola centralizada para controlar configuraciones, estado y políticas de seguridad, perfecta para equipos que manejan múltiples modelos o casos de uso de IA con perfiles de acceso y riesgo variados.
  • F5 AI Gateway: Diseñado específicamente para cargas de trabajo de IA, el AI Gateway amplía NGINX con un enfoque de seguridad centrado en el tráfico de IA. Incluye protecciones personalizables contra la inyección de prompts y la salida tóxica, además de limitación de velocidad y cuotas de uso para ayudarte a prevenir el scraping, el flooding o consultas descontroladas en entornos con GPUs limitadas. Puedes aplicar reglas de seguridad diferentes a distintas rutas de inferencia; por ejemplo, usar políticas más estrictas para modelos generativos y mantener las API vectoriales más flexibles. Registramos todo el tráfico a nivel de token o solicitud, integrándolo en pipelines de observabilidad y apoyando los requisitos de auditoría.

Los principales frameworks, herramientas y servicios gestionados de IA incorporan NGINX

NGINX es una de las opciones de ingreso predeterminadas en muchas de las principales pilas, herramientas y servicios gestionados de AIOps.

Sistema de IA

Cómo utiliza NGINX 

Beneficio práctico 

Intel OpenVINO Model Serve F5 e Intel presentan una demo que despliega fragmentos de modelos detrás de NGINX Plus (YouTube) Una sola pasarela puede enrutar hacia backends de CPU, GPU o VPU.
NVIDIA Triton El Chart de Helm instala Triton con NGINX Plus Ingress para acceso a gRPC (GitHub) La multiplexación HTTP/2 maximiza el uso de la GPU.
NVIDIA Morpheus  Guía "Cómo lo hice" protege Morpheus con NGINX Plus Ingress (Comunidad F5) Descarga de TLS y WAF adaptativo ante la inferencia de seguridad en tiempo real.  
NVIDIA (XLIO) Guía de implementación de NGINX con NVIDIA Accelerated IO (XLIO) (docs.nvidia.com) Mejora de descarga TLS y ajuste de rendimiento, con instrucciones de compilación que incluyen soporte para OpenSSL y archivos de ejemplo.  
Meta vLLM  La documentación oficial explica cómo balancear varias instancias de vLLM mediante NGINX (vLLM) Escala horizontal rápida para endpoints de generación de texto.

Los equipos de MLOps pueden utilizar productos NGINX por las mismas razones que los responsables de microservicios y APIs, ambos fundamentales en despliegues de IA, han apostado por NGINX. Es ligero, modular, portable y gestiona grandes volúmenes de tokens en distintos entornos. Tú, como desarrollador de IA o ingeniero de aprendizaje automático, puedes desplegar NGINX formando parte de tus recetas habituales, utilizando una imagen de contenedor configurada por tu plataforma o equipo de MLOps. NGINX se integra con la aceleración por hardware en la mayoría de plataformas y arquitecturas de procesadores.

Los componentes de IA que incluyen NGINX como opción predeterminada cubren todo el espectro de la infraestructura de IA, desde la programación básica de GPU hasta el servicio avanzado de modelos, la orquestación de implementaciones y la gobernanza empresarial. En conjunto, muestran cómo NGINX soporta numerosos casos de uso: enrutar tráfico de forma segura hacia puntos de inferencia, facilitar una entrega de modelos escalable y eficiente, gestionar el acceso a clústeres multiinquilino y aplicar políticas operativas sobre control de versiones, auditorías y cumplimiento normativo.

  • KServe: Las guías de implementación parten de un dominio existente del controlador de ingreso NGINX para enrutar los servicios de inferencia.
  • Ray Serve: La documentación te indica cómo configurar NGINX Ingress Controller para mostrar dashboards y puntos finales de modelos.
  • Seldon Core v2: Los capítulos de implementación en producción explican cómo configurar el controlador de ingreso NGINX mediante Helm, incluyendo escenarios con tráfico canario y en sombra.
  • Run:ai: Los requisitos listan a NGINX como controlador de ingreso validado para clústeres de Kubernetes multiusuario con uso compartido de GPU.
  • AWS SageMaker: La documentación ofrece ejemplos que usan NGINX y Gunicorn para gestionar contenedores personalizados de inferencia.
  • Azure AKS: Microsoft ofrece un controlador NGINX Ingress gestionado como una opción integrada y lista para usar para el tráfico de entrada dentro del clúster.
  • DataRobot: Las instrucciones de instalación recomiendan usar el Controlador Ingress de NGINX (v4.0.0+) para el enrutamiento por rutas hacia los servidores portátiles de predicción en EKS.

NGINX ofrece una ruta directa hacia MLOps

Estas plataformas y herramientas abarcan todo el espectro de la infraestructura de IA, desde la gestión de GPUs a bajo nivel hasta el servicio avanzado de modelos, la orquestación de implementaciones y la gobernanza a nivel empresarial. Demuestran cómo NGINX respalda múltiples casos de uso: enruta tráfico con seguridad hacia los puntos finales de inferencia, facilita una entrega de modelos escalable y eficiente, gestiona el acceso a clústeres multiinquilino y aplica políticas operativas sobre control de versiones, auditoría y cumplimiento normativo. El listado crece continuamente y esperamos con interés ver qué desarrollan las próximas empresas nativas de IA utilizando NGINX.

Reciba apoyo para escalar su IA con F5 NGINX One.