BLOG

F5 impulsa la innovación con nuevas y potentes capacidades de IA en BIG-IP Next para Kubernetes en DPU NVIDIA BlueField-3.

Imagen en miniatura de Ahmed Guetari
Ahmed Guetari
Publicado el 11 de junio de 2025

Los líderes empresariales saben que necesitan poner la IA en primer plano. Pero es más fácil decirlo que hacerlo. La IA puede ser compleja, costosa y riesgosa. Y tanto la tecnología como el ecosistema están evolucionando rápidamente.

En primer lugar, se está produciendo un claro alejamiento del enfoque de talla única. La IA/ML predictiva, la IA generativa y, ahora, la IA agente se están adaptando para industrias y aplicações específicas. A medida que proliferan los modelos de IA diseñados específicamente para un fin, el panorama de la IA se vuelve cada vez más diverso.

Ahora está claro que las aplicações de IA requieren una infraestructura personalizada, no solo optimizada para el rendimiento, los costos y la eficiencia energética, sino también capaz de seguir el ritmo de las necesidades en rápida evolución de los modelos, aplicações y agentes de IA. Un ejemplo perfecto es el Protocolo de Contexto de Modelo (MCP), una poderosa innovación que ni siquiera existía hace apenas unos meses.

A medida que las organizaciones se apresuran a aprovechar la IA generativa y, cada vez más, los agentes de IA, algunas están construyendo sus propios centros de datos dedicados. Otros están recurriendo a proveedores especializados que implementan infraestructuras a escala de nube diseñadas para soportar múltiples modelos de lenguaje grandes (LLM). Estas plataformas, a menudo llamadas fábricas de IA o Neoclouds, cuentan con inversiones masivas en computación acelerada, redes y almacenamiento, todos diseñados específicamente para satisfacer el rendimiento intenso y escalar las demandas de las cargas de trabajo de IA.

Para construir una infraestructura de inferencia de IA y LLM soberana y escalable es necesario abordar cuatro desafíos clave:

  1. Latencia y rendimiento : una IA rápida y receptiva es esencial, especialmente para casos de uso interactivos. A nadie le gusta mirar fijamente una ruleta esperando que una IA piense.
  2. Seguridad de datos : los LLM a menudo manejan datos confidenciales. Garantizar una inferencia segura y privada es fundamental y aún más complejo debido a las diferentes reglas de seguridad y cumplimiento en los entornos locales y en la nube.
  3. Cumplimiento normativo : a medida que la IA se expande en todas las industrias, regulaciones como el Reglamento General de Protección de Datos (GDPR) de la Unión Europea agregan reglas estrictas en torno al uso de datos, la selección de modelos, la transparencia y la equidad. Navegar por estos es esencial.
  4. Gestión e integración de modelos : los modelos de IA necesitan una gestión continua que incluya control de versiones, supervisión y actualizaciones, y deben integrarse sin problemas en los sistemas existentes. No es plug-and-play, pero protocolos como MCP lo hacen más fácil, a pesar de los desafíos de seguridad que enfrentan los modelos de IA.

Implementando el mejor chip para cada tarea

En F5, colaboramos con NVIDIA para garantizar que las fábricas de IA y la infraestructura de IA a escala de la nube estén a la altura de las exigencias de la IA moderna. Hoy, en NVIDIA GTC Paris 2025 , presentamos el siguiente nivel de innovación con nuevas capacidades para F5 BIG-IP Next para Kubernetes, implementadas en DPU NVIDIA BlueField-3 . Esto se basa en el rendimiento mejorado, la multitenencia y la seguridad que presentamos en GTC San José 2025. F5 BIG-IP Next para Kubernetes, parte de la plataforma de seguridad y entrega de aplicação F5 , se ejecuta de forma nativa en NVIDIA BlueField-3 , procesadores potentes y programables diseñados específicamente para el procesamiento y movimiento de datos.

Al descargar tareas como el procesamiento de red, la gestión del almacenamiento y las operaciones de seguridad (por ejemplo, cifrado y monitoreo del tráfico), las DPU liberan ciclos de CPU y recursos de GPU valiosos para concentrarse en el entrenamiento y la inferencia de IA. Esto reduce los cuellos de botella, aumenta el rendimiento y mejora la latencia, lo que ayuda a las fábricas de IA a operar más rápido y de manera más eficiente al entregar más tokens.

Ubicadas en las tarjetas de interfaz de red, las DPU administran el flujo de datos a través de servidores y entre clientes/usuarios/agentes externos y la fábrica de IA, orquestando la red y la seguridad a escala. F5 BIG-IP Next para Kubernetes implementado en DPU NVIDIA BlueField-3 estuvo disponible de forma general en abril.

Dirigir las indicaciones de la IA al lugar correcto para obtener el resultado deseado.

Los LLM han avanzado rápidamente en los últimos meses y ahora ofrecen una amplia gama de tamaños, costos y experiencia específica en cada dominio. Elegir el modelo correcto para cada solicitud no solo garantiza mejores respuestas y cumplimiento normativo, sino que también optimiza el consumo de recursos, los costos y la latencia.

Con la integración actual de los microservicios NVIDIA NIM , las organizaciones ahora pueden enrutar de manera inteligente las solicitudes de inteligencia artificial al LLM más adecuado o, con precisión, al modelo correcto para cada tarea. Por ejemplo, los modelos livianos y energéticamente eficientes pueden manejar solicitudes simples, mientras que las solicitudes más complejas o grandes y especializadas se dirigen a modelos más grandes o específicos del dominio.

Este enfoque permite que las fábricas de IA utilicen los recursos informáticos de forma más eficiente, reduciendo los costos de inferencia hasta en un 60%. Es beneficioso para todos, tanto para los proveedores como para los usuarios del modelo, obtener una respuesta mejor, más rápida y a un mejor costo.

Menos por más: El almacenamiento en caché elimina la computación redundante y aumenta la producción de tokens.

Además de las GPU, NVIDIA continúa innovando a nivel de software para abordar desafíos clave en la inferencia de IA. NVIDIA Dynamo y KV cache, que se incluyen con NVIDIA NIM, son excelentes ejemplos. NVIDIA Dynamo presenta un servicio desagregado para inferencia, separando la comprensión del contexto (prellenado), que requiere un gran esfuerzo de procesamiento de GPU, de la generación de respuesta (decodificación), que requiere un gran uso del ancho de banda de memoria, en diferentes clústeres de GPU. Esto mejora la utilización de la GPU y simplifica el escalamiento en los centros de datos al gestionar de manera eficiente la programación, el enrutamiento y la administración de la memoria. La caché KV optimiza cómo se almacena y se accede al contexto del modelo. Al mantener los datos utilizados con frecuencia en la memoria de la GPU y descargar el resto a la CPU o al almacenamiento, alivia los cuellos de botella de memoria, lo que permite admitir modelos más grandes o más usuarios sin la necesidad de hardware adicional.

Una nueva y poderosa capacidad de BIG-IP Next para Kubernetes es su compatibilidad con el almacenamiento en caché KV, que acelera la inferencia de IA al tiempo que reduce el uso de tiempo y energía. Combinado con el enrutamiento inteligente de NVIDIA Dynamo, basado en algunas métricas explícitas como el uso de memoria de la GPU y otros criterios, esto permite un tiempo significativamente menor hasta el primer token (TTFT), una mayor generación de tokens y, en última instancia, un rendimiento más rápido. DeepSeek ha mostrado ganancias de 10x a 30x en capacidad.

Los clientes pueden utilizar la capacidad de programación de F5 para ampliar y adaptar las capacidades de F5 BIG-IP para satisfacer sus necesidades precisas y únicas con un rendimiento muy alto.

Operacionalización y protección de MCP para una IA agente segura y soberana.

Para la mayoría de las organizaciones, y particularmente las grandes, como las de servicios financieros, telecomunicaciones y empresas de atención médica con sistemas heredados complejos, la IA agente tiene un gran atractivo. Desarrollados sobre la base de LLM, estos agentes de IA pueden navegar por bases de datos, servidores, herramientas y aplicações complejas para recuperar información precisa, lo que permite alcanzar nuevos niveles de eficiencia y conocimiento.

Presentado por Anthropic en noviembre de 2024, MCP está transformando la forma en que los sistemas de IA interactúan con datos, herramientas y servicios del mundo real. Al actuar como conectores estandarizados, los servidores MCP permiten que los modelos de IA accedan a API, bases de datos y sistemas de archivos en tiempo real, lo que permite que la IA trascienda las limitaciones de los datos de entrenamiento estáticos y ejecute tareas de manera eficiente. A medida que crece su adopción, estos servidores requieren servidores proxy inversos avanzados con equilibrio de carga, seguridad sólida, autenticación, autorización de datos y herramientas, así como una integración perfecta con Kubernetes, lo que convierte a MCP en un pilar clave de la infraestructura de IA soberana y asegura y habilita la IA agente.

Implementado como un proxy inverso frente a los servidores MCP, BIG-IP Next para Kubernetes implementado en DPU NVIDIA BlueField-3 puede escalar y proteger los servidores MCP, verificando solicitudes, clasificando datos, verificando su integridad y privacidad, protegiendo así tanto a las organizaciones como a los LLM de amenazas de seguridad y fugas de datos. Mientras tanto, la programabilidad de F5 facilita garantizar que la aplicação de IA cumpla con los requisitos de MCP y otros protocolos.

Si el token es la nueva moneda, contámoslo, gobernémoslo y gastémoslo con prudencia.

En recientes anuncios de ganancias, algunas organizaciones importantes han comenzado a revelar la cantidad de tokens generados cada trimestre, su crecimiento y los ingresos vinculados a ellos. Esto refleja una necesidad creciente entre nuestros clientes: la capacidad de rastrear, administrar y controlar el uso del token como si fuera un presupuesto para evitar costos inesperados, como sucede a veces con las nubes públicas.

Es por eso que BIG-IP Next para Kubernetes ahora incluye nuevas capacidades para medir y gestionar el consumo de tokens en toda la organización. Cuando los clientes preguntan, escuchamos y entregamos con atención.

Construyendo fábricas de IA seguras, rápidas, soberanas y flexibles.

A medida que las industrias desarrollan fábricas de IA y los países construyen su IA soberana, surgen agentes de IA y la infraestructura, los ecosistemas y las aplicações deben ser flexibles y adaptables. Las organizaciones que implementan IA de manera eficiente avanzarán más rápido, brindarán mejor servicio a los clientes y reducirán costos. Pero para aprovechar este potencial, la IA debe seguir siendo segura, escalable y rentable sin desacelerar el ritmo de la innovación.

Ahí es donde entra F5: en marzo pasado brindamos rendimiento, multitenencia y seguridad. Ahora, con BIG-IP Next para Kubernetes, habilitamos la innovación diseñada para avanzar a la velocidad de la IA.

Nuestra promesa: Más tokens por dólar, por vatio. Pruébelo y vea la diferencia de primera mano.

¿Asistirás al GTC París 2025?

F5 se enorgullece de ser patrocinador Gold de NVIDIA GTC Paris 2025. Visítenos en el stand G27 para experimentar cómo la plataforma de seguridad y entrega de aplicação F5 respalda una infraestructura de IA segura y de alto rendimiento, y asista a nuestra sesión conjunta con NVIDIA, Infraestructura segura por diseño: Construyendo fábricas de IA confiables , el jueves 12 de junio a las 10:00 a. m. CEST. 

Para obtener más información sobre F5 BIG-IP Next para Kubernetes implementado en DPU NVIDIA BlueField-3, consulte mi publicación de blog anterior. Además, asegúrese de leer nuestro Comunicado de prensa para el anuncio de hoy. 

El enfoque de F5 en la IA no termina aquí: explore cómo F5 protege y distribuye aplicaciones de IA en todas partes .